【通用行业开发部】记一次rocketMq的踩坑经历

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 遇到的极小众问题:阿里云RocketMq的死分区与假堆积

※技术组件:阿里云RocketMq
※业务场景:上游系统A将商家变更后数据,通过rocketMq消息通知我项目进行同步更改
※时间背景:项目上线后连续平稳运行一段时间的某天晚上
※异常发现:收到钉钉机器人的告警信息:topicxxx的消息堆积量已达xxx条。登录阿里云mq的控制台,显示topic状态异常,消息堆积状态。
※异常排查:
1、首先怀疑服务问题,紧急检查ECS服务器状态-->全部正常
2、检查mq消费者微服务所在pod状态-->全部正常
3、检查生产环境服务运行日志-->正常
4、搜索告警topic的近期消费日志-->正常
排查到这里其实就已经有点头大了,业务检查没有任何异常,mq的控制台又不能展示具体堆积的消息详情。
抓耳挠腮好一会儿之后,既然不能通过服务发现问题,就索性走一遍流程,看能不能复现问题。于是趁着夜深人静打开pod节点实时日志,然后通过mq的控制台手动发送了一条测试消息,结果!竟然!日志打印了! mq消费没问题!emm,这就TM的离谱,看着控制台上红色的消息堆积状态,我陷入了深深的沉思...
确认服务消费没问题就好办了,第二天直接提了个阿里云工单咨询,结果工单小哥也没遇见过这种问题,历经许久并且用掉了一次技术专家答疑,才最终得到了
原因:死分区与假堆积,通俗点说就是某个节点长时间没有消息生产和消费,rocketMq会不能准确的监测到这个节点的状态,进而给出虚假的消息堆积告警。
※问题修复:
1、根据业务场景和生产日志,梳理出可能存在长时间没有消息消费的节点
2、针对这些节点增加定时发送消息(心跳)的逻辑。
※总结:
1、还是有必要了解选用技术一些可能隐藏的坑,不至于遇到问题时候手忙脚乱
2、技术选型和技术方案还是要根据业务和功能来确定,像本案例其实是不适用mq的(应该设计之初是有mq的通道,不愿再增加一种新的交互方式)

相关实践学习
消息队列RocketMQ版:基础消息收发功能体验
本实验场景介绍消息队列RocketMQ版的基础消息收发功能,涵盖实例创建、Topic、Group资源创建以及消息收发体验等基础功能模块。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
5月前
|
消息中间件 存储 架构师
鼓掌!阿里技术官亲荐“架构修炼宝典”,从基础到源码,一站到底
作为一名程序员,尽早确定自己的发展方向和路线是非常重要的,架构师则是其中的方向之一。很多程序员,奋斗大半辈子,是为了让自己成为一名合格且优秀的架构师,但是成为架构师并非一件易事,它对于技术方面的要求也是非常高的。
|
消息中间件 程序员 Apache
阿里RocketMQ创始人首次分享出这份RocketMQ技术内幕神级架构手册
RocketMQ的发展史? RocketMQ的开源正是源于对这种开源文化的认同,开放是为了更好的协同创新,并将这一技术推向新的高度。在经历了阿里巴巴集团内部多年“双11”交易核心链路工业级场景在验证,2016年11月,团队将RocketMQ捐献给全球享有盛誉的Apache软件基金会正式质为孵化项目。 至此,RocketMQ开启了迈向全球顶级开源软件的新征程。
|
架构师 前端开发 中间件
阿里技术人:从工程师到技术leader的思维升级
阿里技术人:从工程师到技术leader的思维升级
116 0
阿里技术人:从工程师到技术leader的思维升级
|
消息中间件 存储 分布式计算
分享一份京东大数据大牛私藏:Kafka核心设计与实践原理
Kafka起初是由LinkedIn 公司采用Scala语言开发的一一个多分区、多副本且基于ZooKeeper协调的分布式消息系统,现已被捐献给Apache基金会。目前Kafka已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Storm、Spark、Flink等都支持与Kafka集成。
|
前端开发 JavaScript 小程序
新来个技术总监,给公司项目引入了全新的业务架构,堪称最佳实践!
新来个技术总监,给公司项目引入了全新的业务架构,堪称最佳实践!
|
机器学习/深度学习 缓存 SpringCloudAlibaba
假期做了一项调研:大厂为啥都自研RPC?结果合乎情理!
五一假期过的可真快,今天开始,又要搬砖了。在五一假期当中,冰河做了一项调研,感觉结果还是挺合乎情理的。
371 0
假期做了一项调研:大厂为啥都自研RPC?结果合乎情理!
|
缓存 运维 监控
IM消息ID技术专题(七):网易严选分布式ID的技术选型、优化、落地实践
本文将基于网易严选的订单ID使用现状,分享我们是如何结合业内常用的分布式ID解决方案,从而在此基础之上进行ID特性丰富,并不断提升系统可用性和稳定性保障。同时,也对ID生成算法的落地实践过程中遇到坑进行了深入剖析。
484 0
IM消息ID技术专题(七):网易严选分布式ID的技术选型、优化、落地实践
|
消息中间件 运维 Kafka
呕心沥血20万字《Kafka运维与实战宝典》免费开放下载了
呕心沥血20万字《Kafka运维与实战宝典》免费开放下载了
|
消息中间件 Apache RocketMQ
RocketMQ 开源爱好者请注意!邀您共探行业应用与生产实践
为了更好的促进社区交流,帮助更多的新老社区成员们更好的学习和使用 RocketMQ,开源案例实践征集活动正在火热进行中,欢迎大家踊跃投稿~
RocketMQ 开源爱好者请注意!邀您共探行业应用与生产实践
|
API
ZooKeeper常见问题和解决方案--《我和开源的故事》
ZooKeeper常见问题和解决方案--《我和开源的故事》。这里是zookeeper的翻译,也是作者的学习笔记,文中内容添加了不少作者本人的思考。
203 0
下一篇
无影云桌面