最佳实践—如何快速定位及解决数据库问题

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 本文介绍了数据库发生故障时的快速判断方法和解决办法。

如何定位系统瓶颈是否在数据库上

  • 通过Processlist来判断执行以下语句,显示PolarDB-X上所有正在执行的SQL语句。
SHOW PROCESSLIST WHERE INFO IS NOT NULL
  • 一般情况下,语句堆积会伴随着数据库卡慢一起出现,因此如果该语句的显示结果中没有大量执行时间大于0的语句,则基本可以断定问题不在数据库层面,反之,则说明数据库可能存在瓶颈。
  • 通过堆栈信息来判断应用与数据库之间通过TCP协议进行交互,如果数据库层出现瓶颈,则会产生应用将请求通过socket发送给了数据库,但是数据库不返回结果的情况,此时socket会阻塞在read方法上。因此我们可以通过应用当前的堆栈信息来判断是否在数据库层面发生了阻塞。本文以Java应用为例说明:
    1. 通过jstack命令dump堆栈信息。
    2. 在dump出的信息中搜索mysql驱动等待请求返回的堆栈,内容如下:
at java.net.SocketInputStream.socketRead0(Native Method)

at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
at java.net.SocketInputStream.read(SocketInputStream.java:171)
at java.net.SocketInputStream.read(SocketInputStream.java:141)
at com.mysql.jdbc.util.ReadAheadInputStream.fill(ReadAheadInputStream.java:101)
at com.mysql.jdbc.util.ReadAheadInputStream.readFromUnderlyingStreamIfNecessary(ReadAheadInputStream.java:144)
at com.mysql.jdbc.util.ReadAheadInputStream.read(ReadAheadInputStream.java:174)
- locked <0x00000002eb8f2d98> (a com.mysql.jdbc.util.ReadAheadInputStream)
at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:3183)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3659)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket(MysqlIO.java:3649)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:4090)
at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:972)
at com.mysql.jdbc.MysqlIO.readAllResults(MysqlIO.java:2497)
at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2870)
at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2806)
  • 如果有大量的线程的堆栈情况如上例所示,则代表大量线程阻塞在等待数据库返回,说明瓶颈可能在数据库层面,反之,则应重点排查应用本身是否存在瓶颈。

数据库问题快速处置

在通过上述方法判断数据库存在瓶颈之后,推荐依次使用以下方法进行快速恢复。

方法一:KILL所有语句

如果Processlist中显示堆积了很多SQL,建议立即KILL掉所有正在执行的语句,PolarDB-X提供了如下指令进行这个操作:


KILL "ALL"

该语句会KILL掉计算节点与数据节点之间的每一个连接,从而达到结束掉所有语句的效果。

方法二:重启应用

执行方法一后,等待一段时间如果再次产生语句堆积,建议重启应用,避免应用因为处于某种错误的状态,不断的重试高代价的SQL。

方法三:SQL限流

方法2依然无法解决问题之后,建议使用PolarDB-X的CCL_RULES(限流功能)。

  1. 执行SHOW FULL PROCESSLIST命令,找到占比比较高的SQL的模板ID。
+----+---------------+-----------------+----------+-------------------------------+------+-------+-----------------------+-----------------+
| ID | USER | HOST | DB | COMMAND | TIME | STATE | INFO | SQL_TEMPLATE_ID |
+----+---------------+-----------------+----------+-------------------------------+------+-------+-----------------------+-----------------+
| 2 | polardbx_root | *...*:62787 | polardbx | Query | 0 | | show full processlist | NULL |
| 1 | polardbx_root | *...*:62775 | polardbx | Query(Waiting-selectrulereal) | 12 | | select 1 | 9037e5e2 |
+----+---------------+-----------------+----------+-------------------------------+------+-------+-----------------------+-----------------+
2 rows in set (0.08 sec)
  1. 通过模板ID对该类型的SQL进行限流,例如:
CREATE CCL_RULE IF NOT EXISTS `test` ON . TO 'ccltest'@'%'
FOR SELECT
FILTER BY TEMPLATE('9037e5e2')
WITH MAX_CONCURRENCY=10;

方法四:重启数据库

以上方法都无效的情况下,请重启数据库。

相关实践学习
Polardb-x 弹性伸缩实验
本实验主要介绍如何对PolarDB-X进行手动收缩扩容,了解PolarDB-X 中各个节点的含义,以及如何对不同配置的PolarDB-x 进行压测。
相关文章
|
10月前
|
XML 缓存 前端开发
【解决方案 十一】问题排查方法的思考
【解决方案 十一】问题排查方法的思考
79 0
|
11月前
|
数据采集 存储 监控
数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理过程中,经常需要通过查看异常数据,来确定质量问题产生的原因,从而针对性的修复质量问题,下面我们一起来看下Dataphin质量模块的异常数据归档能力。
415 0
数据质量最佳实践(2):通过归档和分析异常数据,快速定位质量问题
|
CDN
CDN诊断工具与日志的作用——如何利用诊断工具进行问题分析(查看定位到的是否是cdn节点)
CDN诊断工具与日志的作用——如何利用诊断工具进行问题分析(查看定位到的是否是cdn节点)自制脑图
136 0
CDN诊断工具与日志的作用——如何利用诊断工具进行问题分析(查看定位到的是否是cdn节点)
|
SQL 存储 监控
PolarDB-X 问题诊断与定位系统搭建赛题解析 | 学习笔记
快速学习 PolarDB-X 问题诊断与定位系统搭建赛题解析
363 0
PolarDB-X 问题诊断与定位系统搭建赛题解析 | 学习笔记
|
SQL 网络协议 Java
最佳实践—如何快速定位及解决数据库问题
本文介绍了数据库发生故障时的快速判断方法和解决办法。
118 0
|
存储 Web App开发 监控
浅谈前端异常监控平台实现方案
异常捕获是改善软件质量的跟踪手段之一,常见的方式是记录日志,从日志分析异常问题进而跟进。对于前端项目来说,异常可能是后端接口数据导致,可能是前端本身业务逻辑问题导致,不管是什么导致的异常,只要能够精准的捕获到就能够分析出问题所在。可能有小伙说有测试阶段,全面的测试机制的确能够降低异常的出现,但是测试大部份情况是在非生产环境上进行的,覆盖面有限。
443 0
浅谈前端异常监控平台实现方案
|
SQL 存储 NoSQL
系统性能瓶颈排查技术总结
系统性能瓶颈排查技术总结
164 0
|
SQL 存储 NoSQL
系统的性能瓶颈,排查该从哪些方面入手,如何定位?
系统的性能瓶颈,排查该从哪些方面入手,如何定位?
系统的性能瓶颈,排查该从哪些方面入手,如何定位?
|
存储 人工智能 运维
如何高效地在线排查代码问题
本文提供了两种应用于在线排查代码问题的高效实践,分别应对单应用场景(对应单个代码库)的精细化分析和分布式应用场景(对应多个代码库)端到端的日志分析,实现一站式在线代码诊断。
482 0
|
网络协议 对象存储 Windows
【OSS 排查方案-5】透过现象看本质之网络排查分析
背景:拿到数据包时如何通过众多的数据,提炼出有效的网络分析信息,快速的进行定位排障。以下总结了一些 OSS 上传/下载慢的共性问题,提供大家参考。 排查问题之前让我们先来回顾一下 TCP 的基础知识 TCP 结构: 基础名词: Sequence Number是包的序列号,用来解决网络包乱序(reordering)问题。
1673 0