【案例】常驻查询引发的thread pool 性能问题之二

简介:
一 现象 
   某业务单机4个实例中的一个实例出现连接数远高于其他三个实例(正常是4K,问题实例是8K+),但是这4个实例的配置完全相同。业务开发反馈为部分连接失败。   
 执行show processlist结果显示:
      存在大量的Killed状态的连接126个,处于Connect状态的6K+,以及6个binlog dump连接(如果看了前面一篇文章是否有点触动,会不会是这个导致的?)
  执行pt-pmp结果显示:
      mysqld 十分的空闲
  执行show engine innodb status:
    不存在空闲大事务

二 处理
     根据上一篇文章的知识,初步判断该数据库实例遇到为 Thread Pool的部分group被阻塞了,(能把query堵在login阶段的大部分为threadpool调度的问题,当然也不排除是因为逻辑原因造成login中出现内部锁等待)
在调整thread_pool_oversubscribe后所有的Connect/Killed状态的连接全部消失,连接数恢复正常。

三 问题分析
     虽然问题是解决了,但是还有大量的疑问存在,显然在原因未知的情况下,如果在业务高峰期意外出现类似现象,后果非常严重,因此我们开始挖掘深层次的原因。
【曲折】
     既然调整thread_pool_oversubscribe后问题就解决了,很显然是有group被阻塞了,因此最重要的就是找出是什么阻塞了 Thread Pool
     这次最能引起人注意的现象当然是这126个Killed状态的连接了,我们知道当连接在运行中,被kill后处于回滚阶段时,会显示Killed。一般来说这个阶段非常短暂(除非有大量的rollback工作,但是State信息是空的,显然不是在rollback),pt-pmp的结果也证明了这一点。最开始一直怀疑是这些Killed的连接阻塞了threadpool的某些group,但是想来想去没有想到合理的解释,这里浪费了很多的时间。
【柳暗花明】

   在Killed session上走不通,那只能看看其他session了,这时发现被阻塞的Connect连接的thread id十分有规律:


| 4261587 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |
 
| 4261619 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |

| 4261651 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |

| 4261683 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |

| 4261715 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL |

| 4261747 | unauthenticated user | connecting host | NULL | Connect | NULL | login | NULL | 

  间隔32递增,很明显是其中一个group被阻塞了。对32取模后发现全部为19号group,那看来是binlog dump没跑了。
对binlog dump线程的thread id对32取模后发现,6个thread中有4个在19号group中,而thread_pool_oversubscribe才3(内部限制为3+1),因此把19号group完全堵死。
到这里完全解释了本次拥堵产生的原因。本次问题中的126个Killed session极大的误导了我们的判断。

【深入分析】
   回过头来有人会问,那126个Killed session是怎么来的呢?
这里就需要讲一下 Thread Pool对kill处理的原理:


当一个正在运行的连接被kill的时候,它所执行的sql会失败,其thd->killed会被置为THD::KILL_CONNECTION,同时通知Thread Pool(回调函数)。Thread Pool在回调函数中会发出一个io信号,worker需要捕获这个event(和正常的event一样处理)后,才会退出这个session,否则一直可以在show processlist看上类似本例子中126个session的状态。 

但是本case中,在这126个session被kill以后,刚好有一个binlog dump连接连到了即将拥堵的19号group。


| 4261363 | xxxx | 10.9.6.57:10843| xxxx_0133 | Killed  | 246196 |                                                                 | NULL |
 
| 4261395 | xxxx | 10.8.9.18:35401| xxxx_0133 | Killed  | 246186 |                                                                 | NULL |

| 4261459 | xxxx | 10.8.2.61:60919| NULL| Binlog Dump | 246110| Master has sent all binlog to slave; waiting for binlog to be updated | NULL |

| 4261491 | unauthenticated user  | connecting host | NULL    | Connect    | NULL   | login                                           | NULL |

| 4261502 | xxxx  | 10.8.2.41:11862 | xxxx_0133 | Sleep       | 1      |                                                              | NULL |

| 4261523 | unauthenticated user   | connecting host | NULL   | Connect     | NULL   | login                                          | NULL | 

看上图紧跟在Killed连接后面的4261459连接, 使得19号group彻底被堵住,可怜的Killed连接连退出的机会都没有了,这就是这126个Killed连接的由来...


相关文章
|
安全 量子技术 数据安全/隐私保护
量子通信:构建安全通信网络的未来
【9月更文挑战第21天】量子通信作为信息时代的一次伟大飞跃,正引领我们迈向一个全新的安全通信纪元。其独特的绝对安全性、高效率和大容量特点,使得量子通信在构建未来安全通信网络中具有不可替代的作用。随着技术的不断发展和应用的不断拓展,我们有理由期待量子通信将在未来发挥更加重要的作用,为人类社会的信息安全保驾护航。
311 14
|
机器学习/深度学习 人工智能 自然语言处理
AI与法律行业:智能法律咨询
在科技飞速发展的今天,人工智能(AI)正逐渐渗透到法律行业,特别是在智能法律咨询领域。本文探讨了AI在智能法律咨询中的应用现状、优势及挑战,并展望了其未来发展前景。AI技术通过大数据、自然语言处理等手段,提供高效、便捷、低成本且个性化的法律服务,但同时也面临数据隐私、法律伦理等问题。未来,AI将在技术升级、政策推动和融合创新中,为用户提供更加优质、便捷的法律服务。
|
jenkins Devops 测试技术
DevOps实践:Jenkins在持续集成与持续部署中的价值
【10月更文挑战第26天】随着DevOps理念的普及,Jenkins作为一款开源自动化服务器,在持续集成(CI)与持续部署(CD)中发挥重要作用。本文通过某中型互联网企业的实际案例,展示了Jenkins如何通过自动化构建、持续集成和持续部署,显著提升开发效率、代码质量和软件交付速度,帮助企业解决传统手工操作带来的低效和错误问题。
435 4
|
传感器 自动驾驶 安全
自动驾驶中的数据安全和隐私
自动驾驶技术的发展已经改变了我们的出行方式,但伴随着这项技术的普及,数据安全和隐私问题也变得愈发重要。本文将探讨自动驾驶中的数据收集、数据隐私和安全挑战,以及如何保护自动驾驶系统的数据。
717 0
|
弹性计算 网络安全 数据安全/隐私保护
阿里云服务器新手入门:注册账号、实名认证申请免费云服务器全流程
注册阿里云账号,选择注册方式如密码、扫码或手机号,并完成验证码验证。接着进行实名认证,提供必要个人信息或企业证件。然后,在控制台选择云服务器ECS,点击“免费试用”申请,配置实例并设置登录密码。创建后,通过远程连接工具如SSH登录,开始使用服务器进行软件安装、应用部署等操作。阿里云提供详细文档支持。别忘了点击链接以直接试用。
796 0
|
JSON 算法 BI
技术经验解读:优酷真实视频地址解析
技术经验解读:优酷真实视频地址解析
|
存储 人工智能 安全
微软升级365 Copilot,加入GPT-4 Turbo、无限信息、100张图片生成加成等功能
微软升级365 Copilot,加入GPT-4 Turbo、无限信息、100张图片生成加成等功能
|
编解码 算法 测试技术
【论文精读】ICLR2022 - 语言驱动的语义分割
【论文精读】ICLR2022 - 语言驱动的语义分割
|
监控 安全 中间件
CTF/AWD竞赛标准参考书+实战指南:《AWD特训营》
CTF/AWD竞赛标准参考书+实战指南:《AWD特训营》
|
存储 Java API
流程引擎Activiti流程实例讲解
流程引擎Activiti流程实例讲解
473 0

热门文章

最新文章