MySQL · 特性分析 · InnoDB transaction history

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
简介: 背景 在写压力负载比较重的MySQL实例上,InnoDB可能积累了较长的没有被purge掉的transaction history,导致实例性能的衰减,或者空闲空间被耗尽,下面就来看看它是怎么产生的,或者有没有什么方法来减轻,避免这样的问题出现。 InnoDB purge 概要 InnoDB是

背景

在写压力负载比较重的MySQL实例上,InnoDB可能积累了较长的没有被purge掉的transaction history,导致实例性能的衰减,或者空闲空间被耗尽,下面就来看看它是怎么产生的,或者有没有什么方法来减轻,避免这样的问题出现。

InnoDB purge 概要

InnoDB是一个事务引擎,实现了MVCC特性,也就是在存储引擎里对行数据保存了多个版本。在对行数据进行delete或者update更改时,行数据的前映像会保留一段时间,直到可以被删除的时候。

在大部分OLTP负载情况下,前映像会在数据操作完成后的数秒钟内被删除掉,但在一些情况下,假设存在一些持续很长时间的事务需要看到数据的前映像,那么老版本的数据就会被保留相当长一段时间。

虽然MySQL 5.6版本增加了多个purge threads来加快完成老版本数据的清理工作,但在write-intensive workload情况下,不一定完全凑效。

测试案例

Peter Zaitsev 使用sysbench的update进行的测试,无论是 innodb_purge_threads=1 还是8的时候,显示的transaction history快速增长的情况,如下图所示:

transaction history增长情况

transaction history增长情况

下面看一下同步测试过程中purge的速度(可以通过I_S.innodb_metrics进行查询):

InnoDB purge 情况

InnoDB purge 情况

显示在并发 process 的过程中,purge thread 其实处在饥饿状态,待sysbench结束,purge线程满载运行清理工作。

对于这个测试结果,这里需要说明下:

  1. 对于Peter Zaitsev的测试,其实主要是为了说明transaction history的情况,如果是用sysbench进行小事务的OLTP测试,并不会产生这么明显的transaction history增长而purge thread 跟不上的情况,或者他在测试的时候,对sbtest表进行了全表查询吧,或者设置了RR级别,不过这只是猜测。
  2. 对于undo page大部分被cache在buffer pool的情况下,purge thread还是比较快的,但如果因为buffer pool的不足而导致undo page被淘汰到disk上的情况,purge操作就会被受限IO情况, 而导致跟不上。

问题分析

我们来看下出现transaction history增长最常见的两种场景:

大查询
如果你在一张大表上发起一个长时间运行的查询,比如mysqldump,那么purge线程必须停下来等待查询结束,这个时候transaction undo就会累积。如果buffer pool中 free page紧张,undo page 还会被置换到disk上,加剧purge的代价。

MySQL重启
即使transaction history并没有急剧增加,但MySQL重启操作,buffer pool的重新预热,还是导致purge变成IO密集型操作。不过MySQL 5.6提供了InnoDB buffer pool的dump和reload方法,可以显著减轻purge的IO压力。

这里介绍一下如何查看buffer pool中undo page的cache情况,percona的版本上提供了I_S.innodb_rseg记录undo的分配和使用情况:

mysql> select sum(curr_size)*16/1024 undo_space_MB from innodb_rseg;
+---------------+
| undo_space_MB |
+---------------+
|     1688.4531 |
+---------------+
1 row in set (0.00 sec)
mysql> select count(*) cnt, count(*)*16/1024 size_MB, page_type from innodb_buffer_page group by page_type;
+--------+-----------+-------------------+
| cnt    | size_MB   | page_type         |
+--------+-----------+-------------------+
|     55 |    0.8594 | EXTENT_DESCRIPTOR |
|      2 |    0.0313 | FILE_SPACE_HEADER |
|    108 |    1.6875 | IBUF_BITMAP       |
|  17186 |  268.5313 | IBUF_INDEX        |
| 352671 | 5510.4844 | INDEX             |
|     69 |    1.0781 | INODE             |
|    128 |    2.0000 | SYSTEM            |
|      1 |    0.0156 | TRX_SYSTEM        |
|   6029 |   94.2031 | UNDO_LOG          |
|  16959 |  264.9844 | UNKNOWN           |
+--------+-----------+-------------------+
10 rows in set (1.65 sec)

从这两个information_schema下的两张表可以看到:undo space使用的总大小是1.7G,而buffer pool中cached不足100M。

InnoDB 优化方法

在一定的写压力情况下,并发进行一些大查询,transaction history就会因为undo log无法purge而一直增加。

InnoDB提供了两个参数innodb_max_purge_laginnodb_max_purge_lag_delay 来调整,即当trx_sys->rseg_history_len超过了设置的innodb_max_purge_lag,就影响DML操作最大delay不超过innodb_max_purge_lag_delay设置的时间,以microseconds来计算。

其核心计算代码如下:

/*******************************************************************//**
Calculate the DML delay required.
@return delay in microseconds or ULINT_MAX */
static
ulint
trx_purge_dml_delay(void)
/*=====================*/
{
     /* Determine how much data manipulation language (DML) statements
     need to be delayed in order to reduce the lagging of the purge
     thread. */
     ulint     delay = 0; /* in microseconds; default: no delay */

     /* If purge lag is set (ie. > 0) then calculate the new DML delay.
     Note: we do a dirty read of the trx_sys_t data structure here,
     without holding trx_sys->mutex. */

     if (srv_max_purge_lag > 0) {
          float     ratio;

          ratio = float(trx_sys->rseg_history_len) / srv_max_purge_lag;

          if (ratio > 1.0) {
               /* If the history list length exceeds the
               srv_max_purge_lag, the data manipulation
               statements are delayed by at least 5000
               microseconds. */
               delay = (ulint) ((ratio - .5) * 10000);
          }

          if (delay > srv_max_purge_lag_delay) {
               delay = srv_max_purge_lag_delay;
          }

          MONITOR_SET(MONITOR_DML_PURGE_DELAY, delay);
     }

     return(delay);
}

但这两个参数设计有明显的两个缺陷:

缺陷1:针对total history length
假设transaction history中保留两类records,一类是是马上可以被purge的,一类是因为active transaction而不能purge的。但大多数时间,我们期望的是purgable history比较小,而不是整个history。

缺陷2:针对大小而非变化
trx_sys->rseg_history_len是一个当前history的长度,而不是一个interval时间段内undo的增长和减少的变化情况,导致trx_sys->rseg_history_len一旦超过innodb_max_purge_lag这个设定的值,就对DML产生不超过innodb_max_purge_lag_delay的时间delay,一旦低于这个值马上delay 时间就又恢复成 0。

在对系统的吞吐监控的时候,会发现系统抖动非常厉害,而不是一个平滑的曲线。类似于下图:

Purge 造成系统抖动

Purge 造成系统抖动

InnoDB purge 设计思路

针对InnoDB的purge功能,可以从以下几个因素来综合考虑:

  1. 增加默认 purge thread 的个数;
  2. 测量 purgable history 长度而不是总的长度;
  3. 针对变化进行调整 delay 数值,以应对 shrinking;
  4. 基于 undo space 的大小,而不是事务的个数;
  5. 调整 undo page 在 buffer pool 中的缓存策略,类似 insert buffer;
  6. 针对 undo page 使用和 index page 不同的预读策略。

以上6条可以针对purge线程进行一些改良。

当前调优方法

在当前的 MySQL 5.6 版本上,我们能做哪些调整或者调优方法,以减少transaction history增加带来的问题呢?

监控
监控trx_sysinnodb_history_list_length,为它设置报警值,及时关注和处理。

调整参数
如果你的实例是写压力比较大的话,调整innodb_purge_threads=8,增加并发purge线程数。
谨慎调整innodb_max_purge_laginnodb_max_purge_lag_delay参数,依据现在的设计,可能你的实例的吞吐量会急剧的下降。

purge完之后再shutdown
大部分的case下,MySQL实例重启后,会发现purge的性能更差,因为undo page未命中的原因,并且是random IO请求。
如果是正常shutdown,就等purge完成再shutdown;如果是crash,就启动后等purge完成再接受业务请求。

预热
使用MySQL 5.6 提供的innodb_buffer_pool_dump_at_shutdown=on 和 innodb_buffer_pool_load_at_startup=on进行预热,把undo space page预热到buffer pool中。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
24天前
|
存储 网络协议 关系型数据库
MySQL8.4创建keyring给InnoDB表进行静态数据加密
MySQL8.4创建keyring给InnoDB表进行静态数据加密
64 1
|
20天前
|
SQL 关系型数据库 MySQL
【MySQL】SQL分析的几种方法
以上就是SQL分析的几种方法。需要注意的是,这些方法并不是孤立的,而是相互关联的。在实际的SQL分析中,我们通常需要结合使用这些方法,才能找出最佳的优化策略。同时,SQL分析也需要对数据库管理系统,数据,业务需求有深入的理解,这需要时间和经验的积累。
42 12
|
20天前
|
SQL 缓存 关系型数据库
使用温InnoDB缓冲池启动MySQL测试
使用温InnoDB缓冲池启动MySQL测试
38 0
|
3月前
|
SQL 关系型数据库 MySQL
MySQL底层概述—10.InnoDB锁机制
本文介绍了:锁概述、锁分类、全局锁实战、表级锁(偏读)实战、行级锁升级表级锁实战、间隙锁实战、临键锁实战、幻读演示和解决、行级锁(偏写)优化建议、乐观锁实战、行锁原理分析、死锁与解决方案
202 24
MySQL底层概述—10.InnoDB锁机制
|
3月前
|
存储 缓存 关系型数据库
MySQL底层概述—5.InnoDB参数优化
本文介绍了MySQL数据库中与内存、日志和IO线程相关的参数优化,旨在提升数据库性能。主要内容包括: 1. 内存相关参数优化:缓冲池内存大小配置、配置多个Buffer Pool实例、Chunk大小配置、InnoDB缓存性能评估、Page管理相关参数、Change Buffer相关参数优化。 2. 日志相关参数优化:日志缓冲区配置、日志文件参数优化。 3. IO线程相关参数优化: 查询缓存参数、脏页刷盘参数、LRU链表参数、脏页刷盘相关参数。
154 12
MySQL底层概述—5.InnoDB参数优化
|
2月前
|
关系型数据库 MySQL OLAP
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
|
3月前
|
存储 SQL 关系型数据库
MySQL底层概述—4.InnoDB数据文件
本文介绍了InnoDB表空间文件结构及其组成部分,包括表空间、段、区、页和行。表空间是最高逻辑层,包含多个段;段由若干个区组成,每个区包含64个连续的页,页用于存储多条行记录。文章还详细解析了Page结构,分为通用部分(文件头与文件尾)、数据记录部分和页目录部分。此外,文中探讨了行记录格式,包括四种行格式(Redundant、Compact、Dynamic和Compressed),重点介绍了Compact行记录格式及其溢出机制。最后,文章解释了不同行格式的特点及应用场景,帮助理解InnoDB存储引擎的工作原理。
MySQL底层概述—4.InnoDB数据文件
|
3月前
|
存储 缓存 关系型数据库
MySQL底层概述—3.InnoDB线程模型
InnoDB存储引擎采用多线程模型,包含多个后台线程以处理不同任务。主要线程包括:IO Thread负责读写数据页和日志;Purge Thread回收已提交事务的undo日志;Page Cleaner Thread刷新脏页并清理redo日志;Master Thread调度其他线程,定时刷新脏页、回收undo日志、写入redo日志和合并写缓冲。各线程协同工作,确保数据一致性和高效性能。
MySQL底层概述—3.InnoDB线程模型
|
16天前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
2月前
|
关系型数据库 MySQL Java
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库

相关产品

  • 云数据库 RDS MySQL 版