最佳实践—如何快速定位及解决数据库问题

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 本文介绍了数据库发生故障时的快速判断方法和解决办法。

如何定位系统瓶颈是否在数据库上

  • 通过Processlist来判断执行以下语句,显示PolarDB-X上所有正在执行的SQL语句。
SHOW PROCESSLIST WHERE INFO IS NOT NULL
  • 一般情况下,语句堆积会伴随着数据库卡慢一起出现,因此如果该语句的显示结果中没有大量执行时间大于0的语句,则基本可以断定问题不在数据库层面,反之,则说明数据库可能存在瓶颈。
  • 通过堆栈信息来判断应用与数据库之间通过TCP协议进行交互,如果数据库层出现瓶颈,则会产生应用将请求通过socket发送给了数据库,但是数据库不返回结果的情况,此时socket会阻塞在read方法上。因此我们可以通过应用当前的堆栈信息来判断是否在数据库层面发生了阻塞。本文以Java应用为例说明:
    1. 通过jstack命令dump堆栈信息。
    2. 在dump出的信息中搜索mysql驱动等待请求返回的堆栈,内容如下:
at java.net.SocketInputStream.socketRead0(Native Method)

at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
at java.net.SocketInputStream.read(SocketInputStream.java:171)
at java.net.SocketInputStream.read(SocketInputStream.java:141)
at com.mysql.jdbc.util.ReadAheadInputStream.fill(ReadAheadInputStream.java:101)
at com.mysql.jdbc.util.ReadAheadInputStream.readFromUnderlyingStreamIfNecessary(ReadAheadInputStream.java:144)
at com.mysql.jdbc.util.ReadAheadInputStream.read(ReadAheadInputStream.java:174)
- locked <0x00000002eb8f2d98> (a com.mysql.jdbc.util.ReadAheadInputStream)
at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:3183)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3659)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3649)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:4090)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:972)
at com.mysql.jdbc.MysqlIO.readAllResults(MysqlIO.java:2497)
at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2870)
at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2806)
  • 如果有大量的线程的堆栈情况如上例所示,则代表大量线程阻塞在等待数据库返回,说明瓶颈可能在数据库层面,反之,则应重点排查应用本身是否存在瓶颈。

数据库问题快速处置

在通过上述方法判断数据库存在瓶颈之后,推荐依次使用以下方法进行快速恢复。

方法一:KILL所有语句

如果Processlist中显示堆积了很多SQL,建议立即KILL掉所有正在执行的语句,PolarDB-X提供了如下指令进行这个操作:


KILL "ALL"

该语句会KILL掉计算节点与数据节点之间的每一个连接,从而达到结束掉所有语句的效果。

方法二:重启应用

执行方法一后,等待一段时间如果再次产生语句堆积,建议重启应用,避免应用因为处于某种错误的状态,不断的重试高代价的SQL。

方法三:SQL限流

方法2依然无法解决问题之后,建议使用PolarDB-X的CCL_RULES(限流功能)。

  1. 执行SHOW FULL PROCESSLIST命令,找到占比比较高的SQL的模板ID。
+----+---------------+-----------------+----------+-------------------------------+------+-------+-----------------------+-----------------+
| ID | USER | HOST | DB | COMMAND | TIME | STATE | INFO | SQL_TEMPLATE_ID |
+----+---------------+-----------------+----------+-------------------------------+------+-------+-----------------------+-----------------+
| 2 | polardbx_root | *...*:62787 | polardbx | Query | 0 | | show full processlist | NULL |
| 1 | polardbx_root | *...*:62775 | polardbx | Query(Waiting-selectrulereal) | 12 | | select 1 | 9037e5e2 |
+----+---------------+-----------------+----------+-------------------------------+------+-------+-----------------------+-----------------+
2 rows in set (0.08 sec)
  1. 通过模板ID对该类型的SQL进行限流,例如:
CREATE CCL_RULE IF NOT EXISTS `test` ON . TO 'ccltest'@'%'
FOR SELECT
FILTER BY TEMPLATE('9037e5e2')
WITH MAX_CONCURRENCY=10;

方法四:重启数据库

以上方法都无效的情况下,请重启数据库。

相关文章
|
5天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
15天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
9天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
590 212
|
4天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
234 138
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
828 60
|
7天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1212 157
|
6天前
|
存储 安全 固态存储
四款WIN PE工具,都可以实现U盘安装教程
Windows PE是基于NT内核的轻量系统,用于系统安装、分区管理及故障修复。本文推荐多款PE制作工具,支持U盘启动,兼容UEFI/Legacy模式,具备备份还原、驱动识别等功能,操作简便,适合新旧电脑维护使用。
511 109