集群节点1883端口无法提供服务(5节点集群)

你这次两张负载图可以只能判断 CPU 调度被打满,1883 的 accept 队列随之顶满,导致新连接进不来;{badtcp,closed}/gen_rpc econnreset 是后续连锁现象,不是原因。
从图上看多个 erts_sched_* 线程长期高占用,这和前面日志里的 long_schedule 是一致的。

还是没有办法判断,再看看故障时下面的输出是什么?


# EMQX
emqx ctl listeners
emqx ctl broker stats
emqx ctl vm all

# 内核/网络
mpstat -P ALL 1 120
pidstat -t -p $(pgrep -f beam.smp | head -1) 1 120
vmstat 1 120
cat /proc/net/netstat | egrep "ListenOverflows|ListenDrops"
ss -s

# 日志
grep -E "long_schedule|accept|busy_dist_port|emfile|enomem|too_many|badtcp|econnreset" /usr/local/emqx-5.8.3/log/emqx.log* | tail -n 400