MQ-消息堆积-业务线程阻塞案例分析

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,182元/月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 使用arthas定位【MQ-消息堆积】的原因

业务背景

业务中某个应用在消费MQ的时候,出现部分机器消息堆积,随着时间推移,堆积的机器数量越来越多,消息的堆积总量越来越多。

问题现象

系统监控

CPU、Load、内存、网络、磁盘监控指标正常;JVM 内存、GC正常。

MQ监控

分析过程

MQ消息堆积最常见的情况是:

应用侧处理MQ消息比较慢,触发了MQ的流控机制(MQ在统计到应用消费慢的时候,会逐步减少给应用侧的消息,最糟糕的情况是MQ一条消息也不会发给应用来消费)。

接下来的思路是慢在了哪?

  • 在业务监控完备的情况下,通过分析业务监控指标,可以粗略定位异常点
  • 明确运行的程序在忙些什么,分析线程堆栈信息

堆栈信息

上面图片中,TID=562的线程正在read Oracle返回的信息。经过观测,TID=562的线程一直处于上面图片中的状态。由于上面图片中的堆栈信息不完整,所以使用jstack抓取后分析出一个关键信息:

locked oracle.jdbc.driver.T4CConnection@31c02e79

T4CConnection分析

【oracle.jdbc.driver.T4CConnection@31c02e79】是与Oracle交互的数据库连接对象,需要分析出

  • 该连接对象对应的socket信息
  • 该连接对象正在执行的SQL
  • 该连接对象关联的statements对象信息

T4CConnection信息

Socket信息

获取到Socket信息进行了如下几个方面的分析:

该Socket与Oracle服务端交互情况:

//通过tcpdump分析与Oracle服务端交互的报文,发现该连接上没有任何报文交互
tcpdump -i any tcp and port 45556 -A -nn

问:与Oracle DBA确认该Socket在服务端正在执行什么SQL?

答:没找到任何关于该Socket的信息

SQL信息

通过分析oracle.jdbc.driver.T4CConnection类代码及【oracle.jdbc.driver.T4CConnection@31c02e79】属性信息找到了正在执行的SQL及与该连接关联的statements信息:

SQL:

statements:

到此,我们分析出了引起线程阻塞的SQL详情。

解决办法

对参数是null的情况进行过滤,不再向Oracle发送这样的SQL语句;同时日志里对这种异常情况进行记录,以便更细致的分析数据为null的产生场景。

加强应用可观测性之线程执行耗时监控
○ 在业务逻辑开始的前面,添加一个filter
○ 当请求到达filter的时候,将当前线程及此时的时间记录到一个Map中
○ 当请求结束回到filter的时候,将当前线程从Map中删除
○ 单独起一个定时任务来遍历Map,当发现Map中某个线程执行时间超过阈值,就打印出线程的堆栈
○ 当开发人员收到异常堆栈的报警,人工介入进行系统恢复及问题快速定位


相关实践学习
快速体验阿里云云消息队列RocketMQ版
本实验将带您快速体验使用云消息队列RocketMQ版Serverless系列实例进行获取接入点、创建Topic、创建订阅组、收发消息、查看消息轨迹和仪表盘。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
目录
相关文章
|
1月前
|
设计模式 消息中间件 安全
【JUC】(3)常见的设计模式概念分析与多把锁使用场景!!理解线程状态转换条件!带你深入JUC!!文章全程笔记干货!!
JUC专栏第三篇,带你继续深入JUC! 本篇文章涵盖内容:保护性暂停、生产者与消费者、Park&unPark、线程转换条件、多把锁情况分析、可重入锁、顺序控制 笔记共享!!文章全程干货!
178 1
|
4月前
|
Java API 调度
从阻塞到畅通:Java虚拟线程开启并发新纪元
从阻塞到畅通:Java虚拟线程开启并发新纪元
353 83
|
2月前
|
数据采集 存储 弹性计算
高并发Java爬虫的瓶颈分析与动态线程优化方案
高并发Java爬虫的瓶颈分析与动态线程优化方案
|
8月前
|
消息中间件 算法 数据库
如果解决MQ消息堆积问题
如果解决MQ消息堆积问题
|
6月前
|
消息中间件 架构师 Java
美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
美团面试:对比分析 RocketMQ、Kafka、RabbitMQ 三大MQ常见问题?
|
消息中间件 存储 监控
MQ线上大规模消息堆积问题处理及使用场景详解
【11月更文挑战第21天】在如今的高并发互联网应用中,消息队列(Message Queue,简称MQ)扮演着至关重要的角色
796 1
|
7月前
|
存储 消息中间件 缓存
RocketMQ原理—3.源码设计简单分析下
本文介绍了Producer作为生产者是如何创建出来的、启动时是如何准备好相关资源的、如何从拉取Topic元数据的、如何选择MessageQueue的、与Broker是如何进行网络通信的,Broker收到一条消息后是如何存储的、如何实时更新索引文件的、如何实现同步刷盘以及异步刷盘的、如何清理存储较久的磁盘数据的,Consumer作为消费者是如何创建和启动的、消费者组的多个Consumer会如何分配消息、Consumer会如何从Broker拉取一批消息。
374 11
RocketMQ原理—3.源码设计简单分析下
|
7月前
|
消息中间件 Java 数据管理
RocketMQ原理—2.源码设计简单分析上
本文介绍了NameServer的启动脚本、启动时会解析哪些配置、如何初始化Netty网络服务器、如何启动Netty网络服务器,介绍了Broker启动时是如何初始化配置的、BrokerController的创建以及包含的组件、BrokerController的初始化、启动、Broker如何把自己注册到NameServer上、BrokerOuterAPI是如何发送注册请求的,介绍了NameServer如何处理Broker的注册请求、Broker如何发送定时心跳
|
10月前
|
并行计算 安全 Java
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
在Python开发中,GIL(全局解释器锁)一直备受关注。本文基于CPython解释器,探讨GIL的技术本质及其对程序性能的影响。GIL确保同一时刻只有一个线程执行代码,以保护内存管理的安全性,但也限制了多线程并行计算的效率。文章分析了GIL的必要性、局限性,并介绍了多进程、异步编程等替代方案。尽管Python 3.13计划移除GIL,但该特性至少要到2028年才会默认禁用,因此理解GIL仍至关重要。
764 16
Python GIL(全局解释器锁)机制对多线程性能影响的深度分析
|
10月前
|
存储 监控 Java
JAVA线程池有哪些队列? 以及它们的适用场景案例
不同的线程池队列有着各自的特点和适用场景,在实际使用线程池时,需要根据具体的业务需求、系统资源状况以及对任务执行顺序、响应时间等方面的要求,合理选择相应的队列来构建线程池,以实现高效的任务处理。
495 12

相关产品

  • 云消息队列 MQ
  • 下一篇
    oss云网关配置