关于xxl-job中的慢sql引发的磁盘I/O飙升导致拖垮整个数据库服务

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
简介: 关于xxl-job中的慢sql引发的磁盘I/O飙升导致拖垮整个数据库服务

背景:

某天突然发现服务探测接口疯狂告警、同时数据库CPU消耗也告警,最后系统都无法访问;

查看服务端日志,发现大量的报错如下:

CommunicationsException: Communications link failure :The last packet successfully received from the server was 201,106 milliseconds ago. The last packet sent successfully to the server was 200,106 milliseconds ago.

起先以为服务出现问题,服务重启后现象依旧。

调查:

通过iostat命令观察到cpu的iowait非常高,再加上服务端的日志报错也是和数据库相关的,然后就把怀疑的方向转移到Mysql是否存在慢SQL拖垮了整个服务。

最后查到是我们使用的xxl-job中间件的一个慢SQL阻塞了整个系统的资源

SELECT t.id
FROM xxl_job_log AS t
WHERE t.trigger_code = 200
AND t.handle_code = 0
AND t.trigger_time <= '2023-02-1 23:36:51.57'
AND t.executor_address NOT IN (
SELECT t2.registry_value
FROM xxl_job_registry AS t2
)

查询使用命令如下

1.查看哪些表被锁:show OPEN TABLES where In_use > 0;
2.查询正在执行的SQL,发现大量SQL执行阻塞了几百秒:
select * from information_schema.processlist where db=‘ db_xxx ‘ and info is not null;
3.直接取出索引的进程ID,拼装成kill语句,取出来执行,干掉阻塞中的索引进程:
select concat(‘kill ‘, id,‘;‘) from information_schema.processlist where db=‘db_xxx ‘ and info is not null;

经过在网上的查询也可以发现官方提出了类似的问题

https://gitee.com/xuxueli0323/xxl-job/issues/I57M1Y

https://github.com/xuxueli/xxl-job/issues/596

为什么数据库的慢SQL会导致CPU的IO WAIT升高呢

我们先看一下计算机是怎么管理磁盘IO操作的。计算机发展早期,磁盘和内存的数据传输是由CPU控制的,也就是说从磁盘读取数据到内存中,是需要CPU存储和转发的,期间CPU一直会被占用。我们知道磁盘的读写速度远远比不上CPU的运转速度。这样在传输数据时就会占用大量CPU资源,造成CPU资源严重浪费。

后来有人设计了一个IO控制器,专门控制磁盘IO。当发生磁盘和内存间的数据传输前,CPU会给IO控制器发送指令,让IO控制器负责数据传输操作,数据传输完IO控制器再通知CPU。因此,从磁盘读取数据到内存的过程就不再需要CPU参与了,CPU可以空出来处理其他事情,大大提高了CPU利用率。这个IO控制器就是“DMA”,即直接内存访问,Direct Memory Access。现在的计算机基本都采用这种DMA模式进行数据传输。

通过上面内容我们了解到,IO数据传输时,是不占用CPU的。当应用进程或线程发生IO等待时,CPU会及时释放相应的时间片资源并把时间片分配给其他进程或线程使用,从而使CPU资源得到充分利用。所以,假如CPU大部分消耗在IO等待(wa)上时,即便CPU空闲率(id)是0%,也并不意味着CPU资源完全耗尽了,如果有新的任务来了,CPU仍然有精力执行任务。如下图:

在DMA模式下执行IO操作是不占用CPU的,所以CPU IO等待(上图的wa)实际上属于CPU空闲率的一部分。所以我们执行top命令时,除了要关注CPU空闲率,CPU使用率(us,sy),还要关注IO Wait(wa)。注意,wa只代表磁盘IO Wait,不包括网络IO Wait。

 

因为CPU处理数据的速度远远大于IO准备数据的速度。所以再进行“读操作”时,DMA负责将数据从磁盘拷贝到内核空间,注意是拷贝不是移动,然后cpu再从内核空间拷贝到用户空间。所以,cpu等待io就绪,在“读操作”时,等的就是DMA将数据从磁盘拷贝到内核空间。

理论与实际结合

那么反应到我们遇到的这个场景就是:iowait是cpu处于空闲状态,因为服务端要做事情之前一般要查一下库如用户权限之类会查用户权限表,现在mysql那里索引出问题了,io资源全被阻塞住了,达到了磁盘IO的瓶颈,服务端这边又一直等待数据从磁盘拷贝到dma(那个问题SQL对应的表数据达到千万级别),磁盘的传输效率又很低所以要把所有的查询返回结果拷贝完非常的耗时,所以才会出现上面的SQL执行了几百秒还没有结束,而系统代码只有再获取到数据库的查询结果后,才能走下面的计算逻辑,那可不是cpu空闲着也没啥可做的,就只是傻乎乎地在等着io拷贝结束嘛,而那些问题SQL又一直占据着IO资源迟迟不释放,就导致了整个系统的不可用。

当把这些问题SQL kill掉之后,系统恢复正常,后面我们针对这个场景增加了一个定时任务来清理那些没用的记录。

后续如何避免MYSQL使用中的慢SQL导致CPU-IOWAIT偏高致使整个系统不可用

问题源头

CPU的消耗主要在 用户、系统、IO等待、软硬中断、空闲。

主要针对用户、IO等待进行优化(其他方面较难改变)

用户:  用户这块主要是用户空间CPU消耗,各种逻辑运算; 比如:正在进行大量tps

以及函数/排序/类型转化/逻辑IO访问…

IO等待:等待IO请求的完成

主要是这两者消耗了大部分的CPU,导致吞吐量下降、查询响应时间增加、慢查询增加。

减少CPU消耗

1.  减少等待

减少IO量:创建适合的索引,空间换时间,提示慢SQL的执行速度。

提升IO处理能力:加大cache、加大磁盘/SSD

2. 减少计算

1)  减少逻辑运算:

避免使用函数,将运算转移至易扩展的应用服务器中

如substr等字符运算,dateadd/datesub等日期运算,abs等数学函数

减少排序,利用索引取得有序数据或避免不必要排序

如union all代替 union,order by 索引字段等

禁止类型转换,使用合适类型并保证传入参数类型与数据库字段类型绝对一致

如数字用tiny/int/bigint等,必需转换的在传入数据库之前在应用中转好

简单类型,尽量避免复杂类型,降低由于复杂类型带来的附加运算。更小的数据类型占用更少的磁盘、内存、cpu缓存和cpu周期

2) 减少逻辑IO量:

index,优化索引,减少不必要的表扫描

如增加索引,调整组合索引字段顺序,去除选择性很差的索引字段等等

table,合理拆分,适度冗余

如将很少使用的大字段拆分到独立表,非常频繁的小字段冗余到“引用表”

SQL,调整SQL写法,充分利用现有索引,避免不必要的扫描,排序及其他操作

如减少复杂join,减少order by,尽量union all,避免子查询等

数据类型,够用就好,减少不必要使用大字段

如tinyint够用就别总是int,int够用也别老bigint,date够用也别总是timestamp

减少query请求量

适当缓存,降低缓存数据粒度,对静态并被频繁请求的数据进行适当的缓存

如用户信息,商品信息等

优化实现,尽量去除不必要的重复请求

如禁止同一页面多次重复请求相同数据的问题,通过跨页面参数传递减少访问等

合理需求,评估需求产出比,对产出比极端底下的需求合理去除

3. 升级cpu

若经过减少计算和减少等待后还不能满足需求,cpu利用率还高,使用杀手锏升级cpu(使用更快更多的CPU)

 

相关文章:

关于job-admin 拖垮数据库

xxl job 运行性能问题

The last packet successfully received from the server was xx milliseconds ago

I/O多路复用

MySQL优化5之CPU消耗过高

io等待为什么引发cpu过高

一次I/O问题引发的P0重大故障

 

本篇文章如有帮助到您,请给「翎野君」点个赞,感谢您的支持。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
Sqoop 企业级大数据迁移方案实战
Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 本课程主要讲解了Sqoop的设计思想及原理、部署安装及配置、详细具体的使用方法技巧与实操案例、企业级任务管理等。结合日常工作实践,培养解决实际问题的能力。本课程由黑马程序员提供。
目录
相关文章
|
1月前
|
SQL 开发框架 .NET
ASP.NET连接SQL数据库:详细步骤与最佳实践指南ali01n.xinmi1009fan.com
随着Web开发技术的不断进步,ASP.NET已成为一种非常流行的Web应用程序开发框架。在ASP.NET项目中,我们经常需要与数据库进行交互,特别是SQL数据库。本文将详细介绍如何在ASP.NET项目中连接SQL数据库,并提供最佳实践指南以确保开发过程的稳定性和效率。一、准备工作在开始之前,请确保您
163 3
|
8天前
|
SQL 缓存 监控
大厂面试高频:4 大性能优化策略(数据库、SQL、JVM等)
本文详细解析了数据库、缓存、异步处理和Web性能优化四大策略,系统性能优化必知必备,大厂面试高频。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:4 大性能优化策略(数据库、SQL、JVM等)
|
8天前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第8天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括系统准备、配置安装源、安装 SQL Server 软件包、运行安装程序、初始化数据库以及配置远程连接。通过这些步骤,您可以顺利地在 CentOS 系统上部署和使用 SQL Server 2019。
|
9天前
|
SQL 存储 Linux
从配置源到数据库初始化一步步教你在CentOS 7.9上安装SQL Server 2019
【11月更文挑战第7天】本文介绍了在 CentOS 7.9 上安装 SQL Server 2019 的详细步骤,包括系统要求检查与准备、配置安装源、安装 SQL Server 2019、配置 SQL Server 以及数据库初始化(可选)。通过这些步骤,你可以成功安装并初步配置 SQL Server 2019,进行简单的数据库操作。
|
19天前
|
关系型数据库 MySQL Linux
Linux系统如何设置自启动服务在MySQL数据库启动后执行?
【10月更文挑战第25天】Linux系统如何设置自启动服务在MySQL数据库启动后执行?
64 3
|
19天前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
61 2
|
19天前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
192 2
|
19天前
|
SQL 数据采集 监控
局域网监控电脑屏幕软件:PL/SQL 实现的数据库关联监控
在当今网络环境中,基于PL/SQL的局域网监控系统对于企业和机构的信息安全至关重要。该系统包括屏幕数据采集、数据处理与分析、数据库关联与存储三个核心模块,能够提供全面而准确的监控信息,帮助管理者有效监督局域网内的电脑使用情况。
16 2
|
24天前
|
SQL JSON Java
没有数据库也能用 SQL
SPL(Structured Process Language)是一款开源软件,允许用户直接对CSV、XLS等文件进行SQL查询,无需将数据导入数据库。它提供了标准的JDBC驱动,支持复杂的SQL操作,如JOIN、子查询和WITH语句,还能处理非标准格式的文件和JSON数据。SPL不仅简化了数据查询,还提供了强大的计算能力和友好的IDE,适用于多种数据源的混合计算。
|
1月前
|
存储 NoSQL MongoDB
基于阿里云数据库MongoDB版,微财数科“又快又稳”服务超7000万客户
选择MongoDB主要基于其灵活的数据模型、高性能、高可用性、可扩展性、安全性和强大的分析能力。