【案例】常驻查询引发的thread pool 性能问题之二

简介: 一 现象    某业务单机4个实例中的一个实例出现连接数远高于其他三个实例(正常是4K,问题实例是8K+),但是这4个实例的配置完全相同。业务开发反馈为部分连接失败。
一 现象 
   某业务单机4个实例中的一个实例出现连接数远高于其他三个实例(正常是4K,问题实例是8K+),但是这4个实例的配置完全相同。业务开发反馈为部分连接失败。   
 执行show processlist结果显示:
      存在大量的Killed状态的连接126个,处于Connect状态的6K+,以及6个binlog dump连接(如果看了前面一篇文章是否有点触动,会不会是这个导致的?)
  执行pt-pmp结果显示:
      mysqld 十分的空闲
  执行show engine innodb status:
    不存在空闲大事务

二 处理
     根据上一篇文章的知识,初步判断该数据库实例遇到为 Thread Pool的部分group被阻塞了,(能把query堵在login阶段的大部分为threadpool调度的问题,当然也不排除是因为逻辑原因造成login中出现内部锁等待)
在调整thread_pool_oversubscribe后所有的Connect/Killed状态的连接全部消失,连接数恢复正常。

三 问题分析
     虽然问题是解决了,但是还有大量的疑问存在,显然在原因未知的情况下,如果在业务高峰期意外出现类似现象,后果非常严重,因此我们开始挖掘深层次的原因。
【曲折】
     既然调整thread_pool_oversubscribe后问题就解决了,很显然是有group被阻塞了,因此最重要的就是找出是什么阻塞了 Thread Pool
     这次最能引起人注意的现象当然是这126个Killed状态的连接了,我们知道当连接在运行中,被kill后处于回滚阶段时,会显示Killed。一般来说这个阶段非常短暂(除非有大量的rollback工作,但是State信息是空的,显然不是在rollback),pt-pmp的结果也证明了这一点。最开始一直怀疑是这些Killed的连接阻塞了threadpool的某些group,但是想来想去没有想到合理的解释,这里浪费了很多的时间。
【柳暗花明】
   在Killed session上走不通,那只能看看其他session了,这时发现被阻塞的Connect连接的thread id十分有规律:
  1. | 4261587 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
  2. | 4261619 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
  3. | 4261651 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
  4. | 4261683 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
  5. | 4261715 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
  6. | 4261747 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
   间隔32递增,很明显是其中一个group被阻塞了。对32取模后发现全部为19号group,那看来是binlog dump没跑了。
对binlog dump线程的thread id对32取模后发现,6个thread中有4个在19号group中,而thread_pool_oversubscribe才3(内部限制为3+1),因此把19号group完全堵死。
到这里完全解释了本次拥堵产生的原因。本次问题中的126个Killed session极大的误导了我们的判断。

【深入分析】
   回过头来有人会问,那126个Killed session是怎么来的呢?
这里就需要讲一下 Thread Pool对kill处理的原理:
  1. 当一个正在运行的连接被kill的时候,它所执行的sql会失败,其thd->killed会被置为THD::KILL_CONNECTION,同时通知Thread Pool(回调函数)。Thread Pool在回调函数中会发出一个io信号,worker需要捕获这个event(和正常的event一样处理)后,才会退出这个session,否则一直可以在show processlist看上类似本例子中126个session的状态。
但是本case中,在这126个session被kill以后,刚好有一个binlog dump连接连到了即将拥堵的19号group。
  1. | 4261363 | xxxx | 10.9.6.57:10843| xxxx_0133 | Killed  | 246196 |                                                                 | NULL |
  2. | 4261395 | xxxx | 10.8.9.18:35401| xxxx_0133 | Killed  | 246186 |                                                                 | NULL |
  3. | 4261459 | xxxx | 10.8.2.61:60919| NULL| Binlog Dump | 246110| Master has sent all binlog to slave; waiting for binlog to be updated | NULL |
  4. | 4261491 | unauthenticated user  | connecting host | NULL    | Connect    | NULL   | login                                           | NULL |
  5. | 4261502 | xxxx  | 10.8.2.41:11862 | xxxx_0133 | Sleep       | 1      |                                                              | NULL |
  6. | 4261523 | unauthenticated user   | connecting host | NULL   | Connect     | NULL   | login                                          | NULL |
看上图紧跟在Killed连接后面的4261459连接, 使得19号group彻底被堵住,可怜的Killed连接连退出的机会都没有了, 这就是这126个Killed连接的由来...

目录
相关文章
|
存储 Java 数据安全/隐私保护
项目实战典型案例15——高并发环境下由于使用全局变量导致数据混乱 高并发环境下对象被大量创建,导致GC并是CPU飙升
项目实战典型案例15——高并发环境下由于使用全局变量导致数据混乱 高并发环境下对象被大量创建,导致GC并是CPU飙升
177 0
项目实战典型案例15——高并发环境下由于使用全局变量导致数据混乱 高并发环境下对象被大量创建,导致GC并是CPU飙升
|
缓存 监控 算法
案例15-创建大量对象导致cpu飙升
创建大量对象导致cpu飙升
229 0
|
安全 NoSQL Java
28个案例问题分析---15---登陆之后我加入的课程调用接口报错--ArrayList线程不安全。占用内存情况
28个案例问题分析---15---登陆之后我加入的课程调用接口报错--ArrayList线程不安全。占用内存情况
89 0
|
存储 Java 关系型数据库
MySQL 驱动中虚引用 GC 耗时优化与源码分析
MySQL 驱动中虚引用导致 GC 耗时较长问题的解决方法、虚引用的作用与使用场景、MySQL 驱动源码中的虚引用分析。
307 0
MySQL 驱动中虚引用 GC 耗时优化与源码分析
|
缓存 自然语言处理 安全
白话Elasticsearch67-不随意调节jvm和thread pool的原因&jvm和服务器内存分配的最佳实践
白话Elasticsearch67-不随意调节jvm和thread pool的原因&jvm和服务器内存分配的最佳实践
183 0
|
存储 SQL 数据库
案例10:mem 100%场景优化 | 学习笔记
简介:快速学习案例10:mem 100%场景优化
109 0
案例10:mem 100%场景优化 | 学习笔记
|
监控 Java 应用服务中间件
系统gc后线程数增加原因分析过程
问题&现象1、由于系统过一段时间(四五天)commited old区会增大,我们应用中增加每天凌晨一次主动fullgc的任务,但是观察下来发现每天经过system.gc后线程数会增加几个,一直增加到接近300不会增加,并且增加的线程为守护线程。监控图如下:2、某些机器偶然出现线程数陡增情况:分析第一反应为fullgc时会新建gc线程去处理,但是通过jstack指令监控两天的线程变化发现,g
|
缓存 算法 安全
小师妹学JVM之:cache line对代码性能的影响
小师妹学JVM之:cache line对代码性能的影响
小师妹学JVM之:cache line对代码性能的影响
|
安全 Java
【高并发】通过源码深度分析线程池中Worker线程的执行流程
在《高并发之——通过ThreadPoolExecutor类的源码深度解析线程池执行任务的核心流程》一文中我们深度分析了线程池执行任务的核心流程,在ThreadPoolExecutor类的addWorker(Runnable, boolean)方法中,使用CAS安全的更新线程的数量之后,接下来就是创建新的Worker线程执行任务,所以,我们先来分析下Worker类的源码。
265 0
【高并发】通过源码深度分析线程池中Worker线程的执行流程
|
安全 Java
高并发之——通过源码深度分析线程池中Worker线程的执行流程
在《高并发之——通过ThreadPoolExecutor类的源码深度解析线程池执行任务的核心流程》一文中我们深度分析了线程池执行任务的核心流程,在ThreadPoolExecutor类的addWorker(Runnable, boolean)方法中,使用CAS安全的更新线程的数量之后,接下来就是创建新的Worker线程执行任务,所以,我们先来分析下Worker类的源码。
207 0

相关实验场景

更多