emqx 集群客户端时不时大批量断线

环境

  • EMQX 版本:5.0.26
  • 操作系统版本:Ubuntu 20.04.6
  • 集群规模:2 core + 6 replicant cpu 16核 内存 32G
  • 每个节点数客户端10000+
  • 发生重连的客户端 平均分布在集群里
  • 大批量客户端重连发生频率,有时候一天一次,有时候3天一次
  • 断线重连的客户端即是发布者也是订阅者
  • 服务器没有特别的异常日志
  • cpu 使用60-70% ,内存32G 使用了3G

重现此问题的步骤

  1. xxx
  2. xxx
  3. xxx

预期行为

实际行为

emqx 集群客户端时不时大批量断连,一次掉了1/4的客户端

即是开发者也是订阅者的客户端,发布的是什么消息,订阅的是什么消息?

有没有发生问题时的系统资源消耗情况?CPU使用率,内存使用率曲线这些信息。

cpu 内存一切正常,这个我确定,cpu 大概60-70% ,内存总共32G, 只使用了 3G 内存

建议收集多一点信息或者脱敏后上传完整的日志。和关键开启的服务(配置信息)
如果只根据目前的信息来看“服务器没有特别的异常日志”,且CPU/内存都低的来推断。
大概率是客户端代码有什么bug,
PS:同时在服务器上确定已经做过服务器操作系统调优。