emqx使用过程中无操作connector断掉之后出现action_not_found不能恢复

emqx:5.8.0
operator部署到k8s的单节点,在正常使用过程中连接器断掉了。不能自动恢复。连接器访问正常着。上次是10.6日出现的。也是断掉,不能恢复。
几个问题:
1、断掉之后不能恢复是不是一个bug?
2、为什么会断掉?是不是我们服务需要排查一下?
3、日志中有警告信息,有没有其他通知的方式让我们能及时收到消息?

关键日志如下:
2024-10-15T09:27:11.071531+00:00 [warning] msg: alarm_is_activated, message: <<“resource down: #{error => closed,status => disconnected}”>>, name: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

2024-10-15T09:27:41.108037+00:00 [warning] msg: alarm_is_deactivated, name: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

2024-10-15T20:50:01.149087+00:00 [warning] tag: AUTHN, clientid: nmap, msg: authentication_failure, peername: 172.21.16.7:54336, reason: bad_username_or_password

2024-10-15T21:23:00.069417+00:00 [warning] tag: AUTHN, clientid: nmap, msg: authentication_failure, peername: 172.21.16.7:59972, reason: bad_username_or_password

2024-10-15T21:25:59.930856+00:00 [warning] tag: AUTHN, clientid: CENSYS, msg: authentication_failure, peername: 172.21.16.7:34912, reason: bad_username_or_password

2024-10-16T02:48:25.012660+00:00 [warning] tag: AUTHN, clientid: CENSYS, msg: authentication_failure, peername: 172.21.16.7:56786, reason: bad_username_or_password

2024-10-16T06:51:54.124138+00:00 [warning] msg: alarm_is_activated, message: <<“resource down: #{error => closed,status => disconnected}”>>, name: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

2024-10-16T06:52:09.138244+00:00 [warning] msg: alarm_is_deactivated, name: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

2024-10-16T06:53:26.101508+00:00 [error] msg: action_not_found, connector: <<“connector:http:prod_message_input_fx_duplication”>>, action_id: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

从日志来看是能自动恢复的,第一条表示断开,第二条表示重连上了。

2024-10-16T06:51:54.124138+00:00 [warning] msg: alarm_is_activated, message: <<“resource down: #{error => closed,status => disconnected}”>>, name: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

2024-10-16T06:52:09.138244+00:00 [warning] msg: alarm_is_deactivated, name: <<“action:http:message_action_fx_prod:connector:http:prod_message_input_fx_duplication”>>

告警可以在 Dashboard 上看到,也会通过 PUBSLIH 消息发送出去。订阅这个主题:

$SYS/brokers/+/alarms/#
1 个赞

感谢回复。它自动恢复这个能看到,从这个消息之后开始就出现了action_not_found。这个开发排查过此问题,发现connector是能访问到的。并且网络畅通。所以这个我在考虑归为未恢复的现象里面了。

后续我们做了,复制了一份connector,规则那边使用这个connector就好了。

所以这个是不是触发了某种机制还是其他的问题?

除了 connector 之外还有一个 action,如果 action 被删了就会有这种情况。

在手动停止 connector、删除 connector 时,action 也会自动被删掉。

感谢回复

这个就是问题所在了,action没人动过。并且我们对这个action进行了检查。上次我们也是遇到了此问题。


下面是连接器,这个也是没有动过的。

下面这个是之前的动作,当时也是已连接状态(确认过的)

规则、动作、连接器
报的错误现在是 动作找不到。但这个动作及连接器、规则都没有动过。平时我们也不登录这个后台。在出问题的时候,也检查了规则、动作、连接器,所有状态等存在且状态正确。

而且这个是第二次出现了。且也是好了一段时间就出现action_not_found了。

补充一下:
我们现在就这个规则出问题了,其他有8个左右都没有出问题

https://askemq.com/uploads/default/original/2X/b/b8a7eb55ac622094f3c9aed07be0ac17964af519.png

action_not_found 的上一条日志是 start_resource_failed,reason nxdomain(DNS解析失败)。说明 connector 已经是 stopped 状态了,所以动作找不到也能理解。

:joy:
不是的,那是一个connector连接的地址不可访问提示的,我们开发自用的,后来关闭这个connector了。


如下图:

那我猜可能是 emqx 有些问题,起码动作没了不应该从 Dashboard 上查得到。

你知道如何复现这个问题吗,简单重启 HTTP 服务就能复现吗?我问问最近有没有相关的修复。

不能复现,上次是10.6日,这次是10.16日。不是一个必现的问题,且是过一段时间会出现。在之前的一个帖子里面也有人遇到了。他的版本是5.7.2。他提到过一段时间会出现需要处理一下,所以我额外关注了。突然今天客户在问的时候,发现了。

因为只有这个规则出现,其他的规则没有出现过,所以可能是某种组合的条件导致的。

有没有开启调试日志让他更详细,下次再出现时能拿到关键信息?

==
现在我们先把这个规则替换掉了。不知道后面会不会再现。

知道了,是一个已知的问题,但还没有合并:

应该是要进 5.8.2 的,但是发布时间没有定,估计一个半月左右吧。

感谢,这个问题有着落了。
我就等等,这段时间我手动先处理着。

对了,这个触发条件是什么?我有什么措施绕过他?现在的话主要不知道什么时间发生不好应对