集群环境下,出现无法找到数据桥接资源的问题

环境

  • EMQX 版本:5.0.17
  • 操作系统版本:Centos7.9 三节点集群部署,非docker

遇到的问题

  1. 在局域网环境,三节点集群,经常报警数据桥接资源连接异常,但是局域网应该不至于网络这么差的



  2. 客户端连接写入异常,该如何调整配置才能解决这个问题?

  3. 出现无法找到数据桥接资源的问题(上面那写是长期问题,这个是今天刚发生的,无法知道是什么情况),之前建立的数据桥接,突然都刷不出来了,提示无法找到,之前都是有的



  1. 第一个问题,日志里有 connection refused 错误,意思是 HTTP 端口访问不通(一般是服务挂了一下或者防火墙问题)。
  2. connection_congested 告警是说该客户端的 TCP 连接出现了消息堆积,一般是因为客户端消费过慢(或者不消费消息),导致消息积压在 TCP 缓存里面。
  3. resource_manager 出现多次错误之后挂掉了,很抱歉要重启 emqx 解决了。具体原因我看到是告警过多,告警超时错误导致 resource_manager 挂掉了,我们会跟踪和解决这个问题。

好的,谢谢,
关于第一个问题的,数据桥接都是部署在局域网,没有防火墙,目的端口是TD的集群,NG代理的负载均衡,而且看很多经常是没多久就恢复上了,应该是在健康监测重连的时候马上就恢复了,所以不太可能是防火墙或者服务挂了问题。但是确实又一直有发生这样的情况;
关于第二个问题,客户端消费来不及,这个TCP 缓存能否调整增大?在哪里可以配置这个呢?
关于第三个问题,已经是集群部署的话,是三个节点都挂了吗?

  1. 应该是 webhook 服务的端口(短暂)不通。
  2. listener 的配置里面,tcp_options.sndbuf 这个调大,默认是 4K.
  3. 只有你贴日志的那个节点挂了,哪个节点有这种日志就重启哪个节点。
  1. 这样配置可以吗?增加到8k? 这个值有没有推荐的?
    image

@Shawn 你好,重新配置了,并且升级到5.0.21 版本的,三节点集群,还是容易出现上面问题(我们的目的是测试EMQX-TD入库的性能):
服务器配置:
Centos7.9 tar.gz 解压安装;4核8G
jmeter 测试并发3000 客户端进行连接推送,没多久就受不住了,这个三台集群部署你们官方预测性能是多少?感觉差距有点大呀 :disappointed_relieved:
三个节点都出现错误日志: