集群脑裂问题

环境信息

  • EMQX 版本:4.3.12
  • 操作系统及版本: alpine:3.12(docker/k8s)
  • 其他

问题描述

本地机房,同一个k8s集群,使用k8s自动集群,出现多次集群脑裂,无法恢复。集群共三个节点,第三个结点出现多次与前两个结点脑裂。这种情况下,出现了脑裂除了网络原因,还会有其他原因么,比如CPU、内存资源等等?

配置文件及日志

[error] ** Node ‘emqx@emqx-1.emqx-headless.middlewares.svc.cluster.local’ not responding **, ** Removing (timedout) connection **

可以看下pod是否有重启,用kubectl describe 结合kubectl logs来查看排查一下,当然也可以看下系统相关的日志。希望对你有帮助

1 个赞

最近我也发生了疑似脑裂问题,客户端发送消息,服务端就是收不到。emqx集群是 kubernetes operator部署的。运行了一个月后出现的。也有此问,集群同步机制是什么样的,什么情况会发生脑裂。

OK,先观察一下试试,谢谢

期待大家的反馈

Hi, @ggmfengyangdi 集群重启过么?

当时看集群k8s状态是没有重启的,恢复集群手动重启了

建议使用 EMQX Operator 1.1.11 https://github.com/emqx/emqx-operator/releases/tag/1.1.11

ok