线上环境大规模RocketMQ集群不停机优雅升级实践

简介: 线上环境大规模RocketMQ集群不停机优雅升级实践

1、版本升级的迫切性


说来惭愧,作为RocketMQ社区优秀布道师,笔者所在公司的RocketMQ服务端版本竟然还是4.1.0,RocketMQ在4.4.0版本之前是不支持ACL(访问控制),对应生产环境中任意一台机器都可以订阅任意topic,在任意一台生产应用服务器都可以安装一个rocketmq-console,从而控制整个集群,拥有删除主题、删除消费组的权限,想想是不是后背发凉.


2、升级方案


2.1 确定升级到的版本


翻开RocketMQ升级日志,RocketMQ在4.4.0版本正式引入了ACL机制,故版本至少要升级到4.4.0,在业界使用开源版本有一个不成文的规则:通常不要使用最新的版本,不要充当小白鼠。


但RocketMQ可以算是一个特殊


通过仔细浏览RocketMQ的版本变更记录,我们不难发现RocketMQ Client 相关的变更非常少,即与用户关系紧密的消息发送、消息消费这块的代码非常的稳定,理论上基本不存在兼容性问题。并且每一个版本都修复了一些重大的BUG,性能提升也比较明显,故笔者这次决定“冒天下之大不韪”,决定将帮升级到最新版本4.8.0


在这里在啰嗦一些,简单介绍一下RocketMQ几个具有里程杯意义的版本。


  • RocketMQ4.3.0正式引入了事务消息,如果大家希望使用事务消息,其版本最低建议为 4.6.1。
  • RocketMQ4.4.0引入了ACL、消息轨迹,如果需要使用这些功能,其版本最低建议为 4.7.0。
  • RocketMQ4.5.0引入了多副本(主从切换),其版本建议使用4.7.0。
  • RocketMQ4.6.0引入了请求-响应模型。


2.2 升级思路


版本升级的基本要求:业务不能停机,即要做到对业务无感知的升级。


如果机器足够的备用机器,最佳的版本迁移方案应该是先扩容再缩容,其示例图如下:

8119be584a0bf52fef4c97af47f5cef0.png

其主要的思路是先对Broker进行扩容,加入两台高版本的Broker服务器,加入到集群中,然后关闭低版本Broker的写权限,待消息过期后,将低版本移除,最后升级NameServer,完成不停机的在线迁移。


由于此次升级需要在半个月左右的时间内将RocketMQ集群所有的节点全部升级,无法提供这么多冷备节点,故先扩容、再缩容无法满足本次需求,本次只能基于已有的机器进行升级。


能否直接升级Broker端代码,但高版本的Broker直接使用低版本的Broker存储目录,即直接升级软件,其示例图如下:


651c39dd1231fa32e82d42a9d7abf96a.png

核心思想是先停止老版本的Broker,然后使用新版本启动Broker,但使用旧的配置文件


有了思路,接下来就是要验证方案的可行性。


2.3 方案验证


理论归理论,在生产环境做任何变更之前,必须有充分的测试验证,版本升级重点需要验证兼容性问题。


2.2.1 服务端版本兼容性验证


e27df1149204ee43203a46a467b57260.png



搭建一个上述MQ集群,其核心要点:


  • 高版本的Broker是否能向低版本的NameServer注册路由
  • 低版本的Broker是否能向高版本的NameServer注册路由


通过rocketmq-console,去创建多个个topic,看看其路由信息是否正确,经验证,符合预期


2.2.2 客户端与服务端兼容性验证


RocketMQ的客户端API其实比较单一,无非就是消息发送、批量发送,消息消费,由于4.1版本不支持事务消息,这次升级甚至都无需验证事务消息,验证的要点:


  • 低版本的客户端是否能正常向高版本Broker发送消息,消费消息
  • 高版本的客户端是否能向低版本的Broker发送消息,消费消息


测试案例来自哪,其实都不需要我们自己写,直接用官方的Demo即可,其代码截图如下:


e883b5871b3b5c24b542b112743c1967.png

客户端验证在真正实施过程中,其实比服务端之间的验证要复杂的多,由于各个项目组使用的客户端版本不一,甚至有些项目组会使用c++、Python等其他非Java客户端,如何精确找到该集群中所有客户端的连接信息(客户端版本、语言类型)至关重要


官方提供的版本,对消费组的连接信息还是支持的比较友好,我们可以通过写脚本,先查询系统中所有的消费组,然后遍历每一个消费组,可以查询这些消费组的IP地址、客户端版本、使用的语言等信息,但开源版本对生产者支持的不友好,没有一个可获取所有发送者相关的接口。


获取消费组消费端的连接方式如下图所示:

2851230a9f538da674a8777718f4a8cc.png

故我们采取的方式,主要是基于消费组失败客户端类型,本次升级过程中,我也对RocketMQ做了一些定制化开发,可方便获取所有发送方的链接信息,后续会已提交PR的方式贡献给官方


2.2.3 Broker端存储格式验证


由于没有空闲资源,本次要使用的升级方式是直接升级软件,但新老版本共用存储目录,基于RocketMQ的消息存储协议,从4.0.0版本之后就一直没有变化,其验证的关键点如下:


  • 4.8.0版本是否可以直接使用4.1.0生成的存储文件(commitlog等文件)
  • 4.1.0版本是否可以直接使用4.8.0生成的存储文件


为什么需要验证4.1.0版本能兼容4.8.0呢?因为如果升级失败,需要回滚,如果4.1.0版本不能兼容4.8.0的话,会让你没有退路,这在架构设计中是绝对不允许的。


经过验证发现,存储文件是相互兼容的。


2.2.4 测试环境验证


经过上面三步的验证,已经可以进行升级了,但升级之前,还要在测试环境稳定运行一天,可以将测试环境升级成如下架构:


e27df1149204ee43203a46a467b57260.png


即不同版本的混搭模式,接受测试环境所有应用服务器的验证,如果测试环境运行没有问题,即可在生产环境进行升级。


2.4 实施方案


有了上面升级方案,并且已经做了充分的验证,是可以在生产环境执行了,在执行之前,需要对理论设计输出可执行可落地的实施方案,实施方案必须要包括回滚操作,并且这个回滚操作一定要比较容易执行,否则你的方案一定是不那么可靠的


接下来重点阐述一下实施过程中一些关键步骤,整个升级步骤才有滚动升级,即逐台升级。


1、关闭一个Broker的写权限


关闭Broker写权限,让应用将流量平滑迁移到其他节点,这样可以有效避免在对该机器进行重启时对业务造成的影响。


sh ./mqadmin updateBrokerConfig -b 192.168.x.x:10911 -n 192.168.xx.xx:9876 -k brokerPermission -v 4

2、带Broker写入、消费tps接近0时,关闭broker

ps -ef | grep java
kill pid

3、使用新版本启动Broker


注意,此过程使用的配置文件为老版本的配置,故此时并没有开启写权限,启动并不会对客户端消息写入造成影响。


4、开启写权限


待新版本启动成功后,既可以开启写权限

sh ./mqadmin updateBrokerConfig -b 192.168.xx.xx:10911 -n 192.168.xx.xx:9876 -k brokerPermission -v 6

观察流量。


重复上述步骤即可完成Broker的升级。


关于Nameserver的升级就更加容易了,采用滚动升级,kill掉老版本的nameserver,在原机器上启动新版本的nameserver即可。


3、花絮


最后和大家再分享一个小小的插曲。尽管上面的方案非常详细,并且经过反复的测试,但MQ在我们公司的重要性实在太重要,运维小伙伴在操作时不敢下手,在操作时他要我在身边看着,这个时候,作为架构师的我们要敢于承担责任,明确告知,只要你操作正确,出力故障由我来承担,这也是我个人觉得作为架构师一个非常重要的软技能:对你负责的技术具有掌控力,并且敢于担当。


相关实践学习
快速体验阿里云云消息队列RocketMQ版
本实验将带您快速体验使用云消息队列RocketMQ版Serverless系列实例进行获取接入点、创建Topic、创建订阅组、收发消息、查看消息轨迹和仪表盘。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
5月前
|
消息中间件 存储 Kafka
一文带你从入门到实战全面掌握RocketMQ核心概念、架构部署、实践应用和高级特性
本文详细介绍了分布式消息中间件RocketMQ的核心概念、部署方式及使用方法。RocketMQ由阿里研发并开源,具有高性能、高可靠性和分布式特性,广泛应用于金融、互联网等领域。文章从环境搭建到消息类型的实战(普通消息、延迟消息、顺序消息和事务消息)进行了全面解析,并对比了三种消费者类型(PushConsumer、SimpleConsumer和PullConsumer)的特点与适用场景。最后总结了使用RocketMQ时的关键注意事项,如Topic和Tag的设计、监控告警的重要性以及性能与可靠性的平衡。通过学习本文,读者可掌握RocketMQ的使用精髓并灵活应用于实际项目中。
4137 9
 一文带你从入门到实战全面掌握RocketMQ核心概念、架构部署、实践应用和高级特性
|
10月前
|
消息中间件 存储 监控
活动实践 | 快速体验云消息队列RocketMQ版
本方案介绍如何使用阿里云消息队列RocketMQ版Serverless实例进行消息管理。主要步骤包括获取接入点、创建Topic和订阅组、收发消息、查看消息轨迹及仪表盘监控。通过这些操作,用户可以轻松实现消息的全生命周期管理,确保消息收发的高效与可靠。此外,还提供了消费验证、下载消息等功能,方便用户进行详细的消息处理与调试。
|
5月前
|
消息中间件 监控 Docker
Docker环境下快速部署RabbitMQ教程。
就这样,你成功地用魔法召唤出了RabbitMQ,还把它和你的应用程序连接了起来。现在,消息会像小溪流水一样,在你的系统中自由流淌。别忘了,兔子们不喜欢孤独,他们需要你细心的关怀,不时地监控它们,确保他们的世界运转得井井有条。
338 18
|
8月前
|
边缘计算 负载均衡 NoSQL
FreeMQTT Plus: 一个新型 MQTT Broker 集群的实现
FreeMQTT Plus 是一款基于 MQTT 协议的高性能消息中间件,采用分布式架构解决单点瓶颈问题。其核心由 Nginx 负载均衡器、黑(A)节点(MQTT Broker)、白(B)节点(消息路由)和日志(L)节点组成。通过无主从设计,支持高可用性、负载均衡与灵活扩展。针对会话同步、消息路由等挑战,FreeMQTT Plus 利用 MQTT5 特性定义元命令,实现节点间高效通信,无需依赖第三方组件。适用于物联网海量设备接入与高并发场景,为未来边缘计算和多级集群部署提供坚实基础。
1415 74
|
9月前
|
消息中间件 监控 RocketMQ
Docker部署RocketMQ5.2.0集群
本文详细介绍了如何使用Docker和Docker Compose部署RocketMQ 5.2.0集群。通过创建配置文件、启动集群和验证容器状态,您可以快速搭建起一个RocketMQ集群环境。希望本文能够帮助您更好地理解和应用RocketMQ,提高消息中间件的部署和管理效率。
1277 91
|
消息中间件 存储 监控
MQ线上大规模消息堆积问题处理及使用场景详解
【11月更文挑战第21天】在如今的高并发互联网应用中,消息队列(Message Queue,简称MQ)扮演着至关重要的角色
792 1
|
消息中间件 安全 Java
云消息队列RabbitMQ实践解决方案评测
一文带你详细了解云消息队列RabbitMQ实践的解决方案优与劣
356 108
|
8月前
|
消息中间件 人工智能 自然语言处理
基于 RocketMQ 事件驱动架构的 AI 应用实践
基于 RocketMQ 事件驱动架构的 AI 应用实践
286 2
|
11月前
|
消息中间件 Java 开发工具
【实践】快速学会使用云消息队列RabbitMQ版
本次分享的主题是快速学会使用云消息队列RabbitMQ版的实践。内容包括:如何创建和配置RabbitMQ实例,如Vhost、Exchange、Queue等;如何通过阿里云控制台管理静态用户名密码和AccessKey;以及如何使用RabbitMQ开源客户端进行消息生产和消费测试。最后介绍了实验资源的回收步骤,确保资源合理利用。通过详细的操作指南,帮助用户快速上手并掌握RabbitMQ的使用方法。
938 10
|
11月前
|
消息中间件 存储 运维
2024最全RabbitMQ集群方案汇总
本文梳理了RabbitMQ集群的几种方案,主要包括普通集群、镜像集群(高可用)、Quorum队列(仲裁队列)、Streams集群模式(高可用+负载均衡)和插件方式。重点介绍了每种方案的特点、优缺点及适用场景。搭建步骤包括安装Erlang和RabbitMQ、配置集群节点、修改hosts文件、配置Erlang Cookie、启动独立节点并创建集群,以及配置镜像队列以提高可用性和容错性。推荐使用Quorum队列与Streams模式,其中Quorum队列适合高可用集群,Streams模式则同时支持高可用和负载均衡。此外,还有Shovel和Federation插件可用于特定场景下的集群搭建。
2395 2