多个节点组成的集群,在运行一段时间后,集群就只剩一个节点了

环境

  • EMQX 版本:4.4.18
  • 操作系统版本:Rocky Linux release 8.7 (Green Obsidian)

重现此问题的步骤

  1. 两台机器172.16.200.208,172.16.200.209作集群,配置如下:
    cluster.name = emqxcl
    cluster.proto_dist = inet_tcp
    cluster.discovery = static
    cluster.static.seeds = emqx@172.16.200.208,emqx@172.16.200.209
    cluster.autoheal = on
    cluster.autoclean = 5m

2.分别启动每一台机器,集群创建成功,如图:

  1. 运行一段时间(这个时间不一定,有时几天,有时十几天)后,集群就只剩一个自身节点了,但是每个节点自身都是存活可用的。

预期行为

集群中一直保持cluster.static.seeds配置的两个节点。

实际行为

运行一段时间(这个时间不一定,有时几天,有时十几天)后,集群就只剩一个自身节点了,但是每个节点自身都是存活可用的。

节点退出集群时前后的日志信息需要收集下。

恰好今天又碰上一次,把日志存下来了,请帮忙看一下


2024-04-10T04:57:59.520096+08:00 [critical] Ekka(Monitor): Network partition detected from node emqx@172.16.200.209: running_partitioned_network
2024-04-10T04:57:59.520108+08:00 [error] Mnesia('emqx@172.16.200.208'): ** ERROR ** mnesia_event got {inconsistent_database, running_partitioned_network, 'emqx@172.16.200.209'}
2024-04-10T04:57:59.520329+08:00 [warning] [Alarm Handler] Alarm partition is activated, Partition occurs at node emqx@172.16.200.209