【通用行业开发部】rocketMq的死分区与假堆积

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 遇到的极小众问题:阿里云RocketMq的死分区与假堆积

※技术组件:阿里云RocketMq
※业务场景:上游系统A将商家变更后数据,通过rocketMq消息通知我项目进行同步更改
※时间背景:项目上线后连续平稳运行一段时间的某天晚上
※异常发现:收到钉钉机器人的告警信息:topicxxx的消息堆积量已达xxx条。登录阿里云mq的控制台,显示topic状态异常,消息堆积状态。
※异常排查:
1、首先怀疑服务问题,紧急检查ECS服务器状态-->全部正常
2、检查mq消费者微服务所在pod状态-->全部正常
3、检查生产环境服务运行日志-->正常
4、搜索告警topic的近期消费日志-->正常
排查到这里其实就已经有点头大了,业务检查没有任何异常,mq的控制台又不能展示具体堆积的消息详情。
抓耳挠腮好一会儿之后,既然不能通过服务发现问题,就索性走一遍流程,看能不能复现问题。于是趁着夜深人静打开pod节点实时日志,然后通过mq的控制台手动发送了一条测试消息,结果!竟然!日志打印了! mq消费没问题!emm,这就TM的离谱,看着控制台上红色的消息堆积状态,我陷入了深深的沉思...
确认服务消费没问题就好办了,第二天直接提了个阿里云工单咨询,结果工单小哥也没遇见过这种问题,历经许久并且用掉了一次技术专家答疑,才最终得到了
原因:死分区与假堆积,通俗点说就是某个节点长时间没有消息生产和消费,rocketMq会不能准确的监测到这个节点的状态,进而给出虚假的消息堆积告警。
※问题修复:
1、根据业务场景和生产日志,梳理出可能存在长时间没有消息消费的节点
2、针对这些节点增加定时发送消息(心跳)的逻辑。
※总结:
1、还是有必要了解选用技术一些可能隐藏的坑,不至于遇到问题时候手忙脚乱
2、技术选型和技术方案还是要根据业务和功能来确定,像本案例其实是不适用mq的(应该设计之初是有mq的通道,不愿再增加一种新的交互方式)

相关实践学习
RocketMQ一站式入门使用
从源码编译、部署broker、部署namesrv,使用java客户端首发消息等一站式入门RocketMQ。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
相关文章
|
2月前
|
消息中间件 存储 运维
Rabbitmq消息大量堆积怎么办?
该文讨论了一个系统架构问题,主要涉及RabbitMQ在处理订单消息时遇到的性能瓶颈。首先,系统使用RabbitMQ是为了解耦和提高性能,前端创建订单后通过RabbitMQ发送消息给订单履约系统消费并执行后续操作。当订单流量激增时,消息堆积导致服务器压力增加。 排查解决方案: 1. 增加消费者以提高消费速度,但发现即使增加消费者,消息堆积问题仍未解决。 2. 分析消费者逻辑,发现调用库存系统接口可能导致处理速度慢。库存系统压力大,接口响应慢,加剧问题。 3. 实施清空堆积消息的策略,新建消费者快速消费消息并存储在表中,减轻服务器压力。待库存服务恢复后,再将消息推回RabbitMQ处理。
132 1
|
9月前
|
消息中间件 Dubbo Java
如何应对RocketMQ消息堆积
很多同学都在使用 RocketMQ 时,经常会遇到消息堆积的问题。这篇文章,我们聊聊消息堆积的概念,以及如何应对消息堆积。
1391 1
|
消息中间件 存储 Java
《RabbitMQ》| 解决消息延迟和堆积问题
本文主要介绍 RabbitMQ的常见问题
773 1
|
20天前
|
消息中间件 负载均衡 开发工具
消息队列 MQ产品使用合集之当一个服务出现堆积后,为什么不把后面的流量负载到其它服务上
消息队列(MQ)是一种用于异步通信和解耦的应用程序间消息传递的服务,广泛应用于分布式系统中。针对不同的MQ产品,如阿里云的RocketMQ、RabbitMQ等,它们在实现上述场景时可能会有不同的特性和优势,比如RocketMQ强调高吞吐量、低延迟和高可用性,适合大规模分布式系统;而RabbitMQ则以其灵活的路由规则和丰富的协议支持受到青睐。下面是一些常见的消息队列MQ产品的使用场景合集,这些场景涵盖了多种行业和业务需求。
消息队列 MQ产品使用合集之当一个服务出现堆积后,为什么不把后面的流量负载到其它服务上
|
16天前
|
消息中间件 容灾 物联网
【RocketMQ系列十四】RocketMQ中消息堆积如何处理
【RocketMQ系列十四】RocketMQ中消息堆积如何处理
52 2
|
2月前
|
消息中间件 Shell 数据处理
rocket mq 查看消费进度,消息堆积,清除堆积数据命令
该内容是关于RocketMQ的消费进度管理和堆积数据处理的指导。首先,需进入RocketMQ的bin目录,然后使用`mqadmin consumerProgress`命令查看消费者或生产者的消费进度。`broker offset`和`consumer offset`的差值表示未消费消息。通过`resetOffsetByTime`命令可重置消费位点来清除堆积数据,未消费消息默认3天后会被丢弃。此外,`CONSUME_FROM WHERE`枚举类定义了消费起点选项,包括从最后、最开始或指定时间点消费。
232 3
|
消息中间件 存储 缓存
RocketMQ 监控告警:生产环境如何快速通过监控预警发现堆积、收发失败等问题?
本文主要向大家介绍如何利用 RocketMQ 可观测体系中的指标监控,对生产环境中典型场景:消息堆积、消息收发失败等场景配置合理的监控预警,快速发现问题,定位问题。
1154 0
RocketMQ 监控告警:生产环境如何快速通过监控预警发现堆积、收发失败等问题?
|
11月前
|
消息中间件 弹性计算 Java
RocketMQ-没有消费者的消息堆积场景分析
RocketMQ-没有消费者的消息堆积场景分析
281 1
|
11月前
|
消息中间件 Arthas 监控
一次RocketMQ ons SDK Bug导致消息不断堆积到重试队列的案例分析
一次RocketMQ ons SDK Bug导致消息不断堆积到重试队列的案例分析
367 1
|
12月前
|
SQL Arthas 监控
MQ-消息堆积-业务线程阻塞案例分析
使用arthas定位【MQ-消息堆积】的原因
212 1