生产环境出现网络分区,RocketMQ集群表示毫无压力!!!

简介: 生产环境出现网络分区,RocketMQ集群表示毫无压力!!!

1、RocketMQ路由注册机制与缺陷


RocketMQ的路由注册机制如下:

fefdd3037656e36eb67d50c3272332a4.jpg

  • Broker 每30s向 NameServer 发送心跳包,心跳包中包含主题的路由信息(主题的读写队列数、操作权限等),NameServer 会通过 HashMap 更新 Topic 的路由信息,并记录最后一次收到 Broker 的时间戳。
  • NameServer 以每10s的频率清除已宕机的 Broker,NameServr 认为 Broker 宕机的依据是如果当前系统时间戳减去最后一次收到 Broker 心跳包的时间戳大于120s。
  • 消息生产者以每30s的频率去拉取主题的路由信息,即消息生产者并不会立即感知 Broker 服务器的新增与删除
  • broker与nameserver之间的连接断开,对应的borker中的路由信息会从nameserver中立即剔除,但同样需要等客户端主动来更新路由信息才会被感知。

上面的实现方式非常的简单高效,但也存在两个非常明显的缺陷

  • 消息发送者、消息消费者无法及时感知broker服务器的宕机与假死,即无法及时获取最新的路由信息。
  • nameserver之间相互不通信,nameserver之间的路由信息会存在不一致形象,但能最终保证一致性。


由于粉丝朋友的关注点在网络分区,网络分区,更加关注的就是nameserver存储的路由信息会不致,接下来重点探讨网络分区。


2、网络分区造成长时间数据不一致


从路由的注册机制来看,各个nameserver之间的路由信息会存在短暂的不一致性,但都能在较短时间内达到一致,在路由寻址场景中是可以接受的,但如果出现网络分区,则数据无法达到一致,示意图如下:

44211c0dbeaabb5475cb31e71a4bfed9.png

例如如果两个网段出现异常,阐述所谓的网络分区,整个集群被划分在两个分区中,如果出现网段1与网段2不能访问,但网段-3可以访问网1、2。


网段1与网段2之间无法互通,会导致broker-a中的topic路由信息不会存储到nameserver-b,broker-b、broker-c中topic的路由信息同样不会存储到nameserver-a中。


2.1对消息发送到影响


在rocketmq中消息发送者同一时间只会连接一台nameserver,消息发送方(Producer-1)连接到是nameserver-a,从中查出4个队列,那该消息发送者发送到消息都回发送到到broker-a;


如果另一消息发送者(Producer-2)连接到是nameserver-b,则发送到消息会分布到broker-b,broker-c,如果Producer-1需要发送消息是2百万条,而Producer-2只发送10W条消息。


网络分区并不会造成消息发送失败,而是可能引发消息分布不均衡


2.2 对消息消费的影响


在rocketmq中,消息队列的负载机制有很多,但基本都是得出topic的队列个数、当前活跃的消费者个数,然后根据负载算法(例如平均分配)。


如果消费者连接的都是同一个机房的nameserver,例如全部是网段-1中的nameserver-a,那broker-b、broker-c中的消息则无法被消费。因为路由信息中不包含broker-b、broker-c中的队列。


如果部分消费者连接nameserver-a、部分连接nameserver-b,则最终的效果是消费者也会产生分区效果:例如c1连接nameserver-a、c2、c3连接nameserver-b,则c1会消费broker-a中的消息,而c2,c3共同消费broker-b,broker-c的消息。


从这里可以看出,网络分区对消费端还是存在较大影响,但容易感知,并且在网络恢复后,消息并不会丢失。


3、架构思考


大家一定会问,RocketMQ的路由注册存在明显缺陷,为什么作为一个Apache顶级项目竟然会存在这样缺陷,是水平不够?


当然不是,这恰恰是一种架构权衡。


RocketMQ的Nameserver其设计理念是追求简单、高性能,关键是经过上面的分析,就算是出现不一致,所带来的并不是灾难级。


但换过来,如果采用诸如zookeeper这种追求强一致性框架,如果出现网络分区,严重的时候zookeeper并不能提供注册与路由寻址方式,会影响整个集群对外提供服务,严重违背分布式架构的高可用设计理念。


相关实践学习
快速体验阿里云云消息队列RocketMQ版
本实验将带您快速体验使用云消息队列RocketMQ版Serverless系列实例进行获取接入点、创建Topic、创建订阅组、收发消息、查看消息轨迹和仪表盘。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
1月前
|
监控 Linux 测试技术
C++零拷贝网络编程实战:从理论到生产环境的性能优化之路
🌟 蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕C++与零拷贝网络编程,从sendfile到DPDK,实战优化服务器性能,毫秒级响应、CPU降60%。分享架构思维,共探代码星辰大海!
|
8月前
|
边缘计算 负载均衡 NoSQL
FreeMQTT Plus: 一个新型 MQTT Broker 集群的实现
FreeMQTT Plus 是一款基于 MQTT 协议的高性能消息中间件,采用分布式架构解决单点瓶颈问题。其核心由 Nginx 负载均衡器、黑(A)节点(MQTT Broker)、白(B)节点(消息路由)和日志(L)节点组成。通过无主从设计,支持高可用性、负载均衡与灵活扩展。针对会话同步、消息路由等挑战,FreeMQTT Plus 利用 MQTT5 特性定义元命令,实现节点间高效通信,无需依赖第三方组件。适用于物联网海量设备接入与高并发场景,为未来边缘计算和多级集群部署提供坚实基础。
1428 74
|
9月前
|
消息中间件 监控 RocketMQ
Docker部署RocketMQ5.2.0集群
本文详细介绍了如何使用Docker和Docker Compose部署RocketMQ 5.2.0集群。通过创建配置文件、启动集群和验证容器状态,您可以快速搭建起一个RocketMQ集群环境。希望本文能够帮助您更好地理解和应用RocketMQ,提高消息中间件的部署和管理效率。
1288 91
|
人工智能 云计算 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。
阿里云引领智算集群网络架构的新一轮变革
|
11月前
|
消息中间件 存储 运维
2024最全RabbitMQ集群方案汇总
本文梳理了RabbitMQ集群的几种方案,主要包括普通集群、镜像集群(高可用)、Quorum队列(仲裁队列)、Streams集群模式(高可用+负载均衡)和插件方式。重点介绍了每种方案的特点、优缺点及适用场景。搭建步骤包括安装Erlang和RabbitMQ、配置集群节点、修改hosts文件、配置Erlang Cookie、启动独立节点并创建集群,以及配置镜像队列以提高可用性和容错性。推荐使用Quorum队列与Streams模式,其中Quorum队列适合高可用集群,Streams模式则同时支持高可用和负载均衡。此外,还有Shovel和Federation插件可用于特定场景下的集群搭建。
2428 2
|
11月前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
380 2
|
监控 安全 网络安全
Elasticsearch集群的网络设置
Elasticsearch集群的网络设置
389 3
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
11月前
|
消息中间件 RocketMQ
2024最全RocketMQ集群方案汇总
在研究RocketMQ集群方案时,发现网上存在诸多不一致之处,如组件包含NameServer、Broker、Proxy等。通过查阅官方文档,了解到v4.x和v5.x版本的差异。v4.x部署模式包括单主、多主、多主多从(异步复制、同步双写),而v5.x新增Local与Cluster模式,主要区别在于Broker和Proxy是否同进程部署。Local模式适合平滑升级,Cluster模式适合高可用需求。不同模式下,集群部署方案大致相同,涵盖单主、多主、多主多从等模式,以满足不同的高可用性和性能需求。
1630 0
|
Kubernetes 应用服务中间件 nginx
搭建Kubernetes v1.31.1服务器集群,采用Calico网络技术
在阿里云服务器上部署k8s集群,一、3台k8s服务器,1个Master节点,2个工作节点,采用Calico网络技术。二、部署nginx服务到k8s集群,并验证nginx服务运行状态。
3612 2
下一篇
oss云网关配置