RocketMQ在生产环境中,会偶发(一两个月发生一次)rocketmq消息发送超时问题,客户端日志报sendDefaultImpl call timeout,此问题一直持续,直到重启客户端应用才能恢复正常。
问题分析线索:
(1)问题发生时发送超时的消息都是发往某一个特定的broker
(2)从网络抓包看,发生问题的时候,从发生问题的时间点开始,只有从客户端往这个特定的broker发送的数据包,broker没有数据包返回,直到客户端应用重启才恢复正常。
(3)从broker的监控看,发生问题的时间段里面,cpu的使用率会提高,但幅度不大,本来cpu idle稳定在98%,但是发生问题的时候,cpu idle跳到92%左右,客户端重启后cpu idle回到98%左右并保持稳定。
(4) broker的log里没有明显的报错信息
请问各位有没有碰到过类似的问题?有什么分析的思路,请不吝赐教。
建议
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
涵盖 RocketMQ、Kafka、RabbitMQ、MQTT、轻量消息队列(原MNS) 的消息队列产品体系,全系产品 Serverless 化。RocketMQ 一站式学习:https://rocketmq.io/