我们8台组成的集群,短时间内8台都挂了。尝试重启拉起,1小时后也同时挂了
erl_crash.zip (1.2 MB)
这个crash 的dump文件
crashdump 文件中有效信息不多,还请补充以下一些关键信息:
- EMQX 集群规格,几个节点,其中 core 节点和 replicant 节点的数量?
- 节点 crash 时的相关日志
- 使用到的功能
- 部署启动时节点使用的配置,例如关键的
node
/cluster
等配置项
有8个节点,没有做特殊设置,通过join把8台联系起来的。配置方面只改了node节点的名称。主要就是使用emqx建立mqtt连接,订阅一些topic。这是其中一个节点在第二次尝试拉起时的相关日志。
emqx.log.zip (2.6 MB)
emqx.log (2).zip (2.6 MB)
emqx.log (3).zip (3.1 MB)
emqx.log (4).zip (375.0 KB)
大致检查了一遍日志,有几个问题需要确认下
- 客户端数量级大概多少
- 客户端发布消息量级
- 客户端订阅的主题过滤器是否带通配符,该通配符下消息量级会不会很高
- 共享订阅使用方式?
1.客户端连接数量大概在400-410万
2.每秒在4000左右的消息
3.设备使用的唯一的主题,服务端消费使用的通配符。
4.不带群组的共享订阅
dump.z05.zip (3 MB)
dump.z01.zip (3 MB)
dump.z02.zip (3 MB)
dump.z03.zip (3 MB)
dump.z04.zip (3 MB)
dump.zip (738.5 KB)
这个是发现的一个节点的dump文件和之前有明细差异,可能是这个节点引起的。由于文件大小和类型的限制,需要把前5个的拓展zip删除才能正常解压。如下图