开发者社区 > 云原生 > 消息队列 > 正文

RocketMQ在生产环境中,会偶发(一两个月发生一次)rocketmq消息发送超时问题?

RocketMQ在生产环境中,会偶发(一两个月发生一次)rocketmq消息发送超时问题,客户端日志报sendDefaultImpl call timeout,此问题一直持续,直到重启客户端应用才能恢复正常。

问题分析线索:

(1)问题发生时发送超时的消息都是发往某一个特定的broker
(2)从网络抓包看,发生问题的时候,从发生问题的时间点开始,只有从客户端往这个特定的broker发送的数据包,broker没有数据包返回,直到客户端应用重启才恢复正常。
(3)从broker的监控看,发生问题的时间段里面,cpu的使用率会提高,但幅度不大,本来cpu idle稳定在98%,但是发生问题的时候,cpu idle跳到92%左右,客户端重启后cpu idle回到98%左右并保持稳定。
(4) broker的log里没有明显的报错信息

请问各位有没有碰到过类似的问题?有什么分析的思路,请不吝赐教。

展开
收起
cuicuicuic 2024-03-20 16:22:51 27 0
1 条回答
写回答
取消 提交回答
  • 建议

    1. 先明确客户端超时错误的的 response code和remark是什么
    2. 根据这个去排查broker的日志。 一般broker的cpu不会很高, 排查点可以放到磁盘读写, slave同步(如果有的话)image.png
      ,此回答整理自钉群“群1-Apache RocketMQ 中国开发者钉钉群”
    2024-03-20 19:52:25
    赞同 展开评论 打赏

多个子产品线联合打造金融级高可用消息服务以及对物联网的原生支持,覆盖多行业。

相关产品

  • 云消息队列 MQ
  • 热门讨论

    热门文章

    相关电子书

    更多
    RocketMQ Client-GO 介绍 立即下载
    RocketMQ Prometheus Exporter 打造定制化 DevOps 平台 立即下载
    基于 RocketMQ Prometheus Exporter 打造定制化 DevOps 平台 立即下载