MySQL 如何高效可靠处理持久化数据

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 本文详细解析了 MySQL 的 SQL 执行流程、crash-safe 机制及性能优化策略。内容涵盖连接器、分析器、优化器、执行器与存储引擎的工作原理,深入探讨 redolog 与 binlog 的两阶段提交机制,并分析日志策略、组提交、脏页刷盘等关键性能优化手段,帮助提升数据库稳定性与执行效率。

一、SQL 执行过程

MySQL 中是如何执行 SQL 的,过程如下:

连接器->(查询缓存)->分析器->优化器->执行器->存储引擎

查询缓存模块,8.0 中已做废此功能。

连接器--客户端与 MySQL 服务器的连接

配置文件中,max_connections 用于控制最大连接数,默认值151。

需要注意的是,连接操作比较耗资源,所以一般使用长连接,不过长连接有内存占用的问题。解决方案定时断开或者在大查询之后断开重连(5.7之后可以调用 MySQL_reset_connection(),在不断开的情况下释放资源)

sql

体验AI代码助手

代码解读

复制代码

mysql_reset_connection()

分析器--词法和语法解析

优化器--基于成本的优化方式选择索引,生成执行计划

优化器选择索引的依据

  • 是否排序
  • 是否使用临时表
  • 回表开消
  • 扫描行数(估计值,采样,索引的区分度(不同的值))

MySQL 的优化器不是很完美,有时候需要优化 SQL,需要用 explain 分析索引使用情况

优化方向:

  • 修改 SQL
  • 加索引
  • 删索引
  • force index

sql

体验AI代码助手

代码解读

复制代码

-- 强制指定使用索引a
select * from t force index(a) where a between 10000 and 20000;

执行器--执行器检查权限,操作存储引擎,返回结果

存储引擎

MySQL支持多种存储引擎,同一个数据库不同的表可以设置不同的引擎

InnoDB:5.5 后默认,支持事务,外键,适合大部分场景

MyISAM:5.5 之前默认

MEMORY:内存,速度快,不能持久化,主从同步的有问题

二、crash-safe

实现 crash-safe:MySQL 异常重启,数据不会丢失

实现方式:WAL(预写式日志) 技术,先写日志再把数据写磁盘,保证数据操作的原子性和持久性

redolog

InnoDB 存储引擎功能,记录的是物理日志,记录的是数据页的物理修改(指 InooDB 中同一数据页在磁盘上和内存中的差异,因为是顺序IO,性能会比随机IO快,这种数据页叫脏页)

记录方式,循环覆写,固定的大小,不能用于归档。

binlog

MySQL 基本功能,不限存储引擎,只记录数据的变化,是逻辑日志

归档日志,可用于服务器之间主从同步,备份恢复

两阶段提交

redolog 保证了 MySQL 数据不丢失

binlog 用于归档,保证了数据库可以备份每一次事务提交

如何保证归档的数据和当前的数据一致,也就是如果让 “当前数据” 与 “备份数据” 一致或主机与从机数据一致。

MySQL 的实现方案,过程如下:

执行SQL->更新内存中的数据页(如果没有从磁盘中加载到内存)-> 写入redolog(redolog prepare 状态) -> 写binlog->提交事务(redolog commit 状态)

写日志执行过程为两阶段提交 prepare->commit ,保证了数据逻辑上的一致性

三、性能

日志与磁盘IO的关系

数据库的主要性能瓶颈就是磁盘IO,相对于内存来说,磁盘太慢了。要提高性能就需要减少刷盘次数。

配置文件中,innodb_flush_log_at_trx_commit 用于控制 redolog 日志持久化策略

  • 设置为1,redolog 每次事务提交都直接持久化到磁盘
  • 设置为2,每次只写到 page cache

后台有一个线程每秒写盘(write + fsync),刷盘的时候可以顺带把其它未提交的事务数据刷新,有数据丢失的风险,最多丢失1秒的数据,但是IO性能会更好。

将某个脏页刷新到磁盘前,会先保证该脏页对应的 redolog 刷新到磁盘中

此外,如果遇到大事务 redolog 缓存占用到了 innodb_log_buffer_size 的一半,会主动写盘(只write)

配置文件中,sync_binlog 用于控制 binlog 日志持久化策略

  • 设置为1,binlog 在每次事务提交都直接持久化到磁盘
  • 设置为N,表示每次只 write 到文件系统的 page cache,N个事务后 fsync。MySQL 崩溃不会丢数据,但是系统断电会丢最多N个数据,一般设置为100-1000

上面两阶段提交,需要注意的是,redolog 刷盘时机是在两阶段中的 prepare,commit 其实不需要刷盘(重启后校验 binlog 完整性)

正常情况下,数据库需要保证crash-safe, 必须配置成配置双1(innodb_flush_log_at_trx_commit=1和sync_binlog=1),此时一个事务的提交会刷盘两次(redolog 和 binlog)

配置文件中,innodb_log_buffer_size redolog 缓存大小,如果有大事务,可以设置大一些,默认16M

有时候为了提高性能,MySQL 会设置为非双1,比如:

  • 业务高峰
  • 备库延迟追主库
  • 恢复备份
  • 批量导入

组提交

在 redolog 中有 LSN 日志逻辑序列号,记录 redolog 写入点,每次递增日志的写入长度。通过 LSN 可以判断,在事务提交的时候可能其它事务已经帮你刷盘了,不需要重复刷盘。 让 redolog 的刷盘尽量靠后,可以更好的利用组提交。

InnoDB 做了一个两阶段提交优化,redolog 的 fsync 放在 binlog write 之后

binlog 也有组提交,不过一般用不上,因为 redolog 的 fsync 步骤比较快,达不到积累binlog日志的效果。

在 sync_binlog 设置为1时如果你想提升 binlog 组提交的效果,可以修改如下配置:

配置文件中 binlog_group_commit_sync_delay 参数,表示延迟多少微秒后才调用 fsync;

配置文件中 binlog_group_commit_sync_no_delay_count 参数,表示累积多少次事务以后才调用 fsync。

以上两个参数是或的关系,满足一个就会 fsync。

这两个参数原理是延迟 commit success 的返回,最长延迟 binlog_group_commit_sync_delay 微秒,所以上面两个参数是无损的(对 crash-safe 没有影响),但是会增加语句的响应时间

需要注意 binlog_group_commit_sync_delay 和 binlog_group_commit_sync_no_delay_count 的逻辑先走。等到满足了这两个条件之一,再进入 sync_binlog 参数控制的阶段。

脏页刷盘(InnoDB Buffer Pool)

配置文件中,innodb_buffer_pool_size innodb 缓存大小,建议设置为设置为主机内存的60-80%

配置文件中,innodb_change_buffer_max_size 设置 change buffer 占用 buffer pool 的比例,默认是50%

InnoDB 并没有使用操作系统中文件系统自带的缓存,而是自己实现缓存,InnoDB 中数据以页为单位从磁盘中加载到内存,页的大小一般为 16 KB,为减少磁盘 IO 负担,当内存数据页数据有修改时,并不会立即更新到磁盘中,而是等待特定的时机刷新。

记录内存数据页和磁盘数据页之间物理差异就是 redolog 的工作, 脏页的刷新和 redolog 息息相关。

刷脏页(这里指内存数据页与磁盘不一致,相反的叫干净页)的过程叫 flush,flush 时机有以下几种情况:

  1. redolog 满了, 此时 MySQL 不能处理任何写操作,这也是 MySQL 卡死的主要原因之一
  2. 系统内存不足,干净页/脏页都可能释放,如果是脏页,会触发 flush
  3. 空闲时
  4. 正常开闭程序时

配置文件中,innodb_io_capacity 这个参数告诉 InnoDB 磁盘的性能,控制全力刷新磁盘时的性能,默认200

可以使用用 fio 测试磁盘的 IOPS,机械硬盘建议100,SSD 建议200或更高,比如1000,最高不建议超过20000

bash

体验AI代码助手

代码解读

复制代码

 touch /tmp/test_io
 fio -filename=/tmp/test_io -direct=1 -iodepth 1 -thread -rw=randrw -ioengine=psync -bs=16k -size=500M -numjobs=10 -runtime=10 -group_reporting -name=mytest

实际使用时,不可能让磁盘一直全力去刷新,所以需要控制不同程度下动态处理使用不同的速度百分比

动态处理由两个因素决定,两个维度取更大的值刷新

  • 脏页比例
  • redolog 生成速度(checkpoint 和 write pos差值)

配置文件中,innodb_max_dirty_pages_pct 用于设置脏页百分比上限,默认90,意思是 InnoDB 会避免达到90这个值,如果达到了些值 InnoDB 会全力刷新

sql

体验AI代码助手

代码解读

复制代码

 -- 查询脏页比例
 select VARIABLE_VALUE into @a from `performance_schema`.global_status where VARIABLE_NAME = 'innodb_buffer_pool_pages_dirty';
 select VARIABLE_VALUE into @b from `performance_schema`.global_status where VARIABLE_NAME = 'innodb_buffer_pool_pages_total';
 select @a/@b;

checkpoint 是 redolog 中记录要擦除的LSN序号 InnoDB 每次写入的日志都有一个LSN序号 write pos 直接刷脏页是不会动 redolog 的,等后续应用 redolog 的时候,会根据LSN 的大小来判断这个页有没有应用到这条 log

配置文件中,innodb_flush_neighbors 表示如果脏页旁边也是脏页,是否一起flush,用于机械盘设置为1,用于 ssd 建议设置为0(MySQL8的默认值)


转载来源:https://juejin.cn/post/7247813372891725879

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
9月前
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
7月前
|
SQL 人工智能 关系型数据库
如何实现MySQL百万级数据的查询?
本文探讨了在MySQL中对百万级数据进行排序分页查询的优化策略。面对五百万条数据,传统的浅分页和深分页查询效率较低,尤其深分页因偏移量大导致性能显著下降。通过为排序字段添加索引、使用联合索引、手动回表等方法,有效提升了查询速度。最终建议根据业务需求选择合适方案:浅分页可加单列索引,深分页推荐联合索引或子查询优化,同时结合前端传递最后一条数据ID的方式实现高效翻页。
380 0
|
6月前
|
存储 关系型数据库 MySQL
在CentOS 8.x上安装Percona Xtrabackup工具备份MySQL数据步骤。
以上就是在CentOS8.x上通过Perconaxtabbackup工具对Mysql进行高效率、高可靠性、无锁定影响地实现在线快速全量及增加式数据库资料保存与恢复流程。通过以上流程可以有效地将Mysql相关资料按需求完成定期或不定期地保存与灾难恢复需求。
503 10
|
10月前
|
关系型数据库 MySQL Linux
在Linux环境下备份Docker中的MySQL数据并传输到其他服务器以实现数据级别的容灾
以上就是在Linux环境下备份Docker中的MySQL数据并传输到其他服务器以实现数据级别的容灾的步骤。这个过程就像是一场接力赛,数据从MySQL数据库中接力棒一样传递到备份文件,再从备份文件传递到其他服务器,最后再传递回MySQL数据库。这样,即使在灾难发生时,我们也可以快速恢复数据,保证业务的正常运行。
475 28
|
12月前
|
Java 关系型数据库 MySQL
SpringBoot 通过集成 Flink CDC 来实时追踪 MySql 数据变动
通过详细的步骤和示例代码,您可以在 SpringBoot 项目中成功集成 Flink CDC,并实时追踪 MySQL 数据库的变动。
2867 45
|
9月前
|
存储 SQL 缓存
mysql数据引擎有哪些
MySQL 提供了多种存储引擎,每种引擎都有其独特的特点和适用场景。以下是一些常见的 MySQL 存储引擎及其特点:
233 0
|
11月前
|
存储 SQL 关系型数据库
【YashanDB知识库】MySQL迁移至崖山char类型数据自动补空格问题
**简介**:在MySQL迁移到崖山环境时,若字段类型为char(2),而应用存储的数据仅为'0'或'1',查询时崖山会自动补空格。原因是mysql的sql_mode可能启用了PAD_CHAR_TO_FULL_LENGTH模式,导致保留CHAR类型尾随空格。解决方法是与应用确认数据需求,可将崖山环境中的char类型改为varchar类型以规避补空格问题,适用于所有版本。
|
11月前
|
SQL 关系型数据库 MySQL
【YashanDB知识库】字符集latin1的MySQL中文数据如何迁移到YashanDB
本文探讨了在使用YMP 23.2.1.3迁移MySQL Server字符集为latin1的中文数据至YashanDB时出现乱码的问题。问题根源在于MySQL latin1字符集存放的是实际utf8编码的数据,而YMP尚未支持此类场景。文章提供了两种解决方法:一是通过DBeaver直接迁移表数据;二是将MySQL表数据转换为Insert语句后手动插入YashanDB。同时指出,这两种方法适合单张表迁移,多表迁移可能存在兼容性问题,建议对问题表单独处理。
【YashanDB知识库】字符集latin1的MySQL中文数据如何迁移到YashanDB
|
11月前
|
缓存 NoSQL 关系型数据库
Redis和Mysql如何保证数据⼀致?
1. 先更新Mysql,再更新Redis,如果更新Redis失败,可能仍然不⼀致 2. 先删除Redis缓存数据,再更新Mysql,再次查询的时候在将数据添加到缓存中 这种⽅案能解决1 ⽅案的问题,但是在⾼并发下性能较低,⽽且仍然会出现数据不⼀致的问题,⽐如线程1删除了 Redis缓存数据,正在更新Mysql,此时另外⼀个查询再查询,那么就会把Mysql中⽼数据⼜查到 Redis中 1. 使用MQ异步同步, 保证数据的最终一致性 我们项目中会根据业务情况 , 使用不同的方案来解决Redis和Mysql的一致性问题 : 1. 对于一些一致性要求不高的场景 , 不做处理例如 : 用户行为数据 ,
|
12月前
|
SQL 关系型数据库 MySQL
基于SQL Server / MySQL进行百万条数据过滤优化方案
对百万级别数据进行高效过滤查询,需要综合使用索引、查询优化、表分区、统计信息和视图等技术手段。通过合理的数据库设计和查询优化,可以显著提升查询性能,确保系统的高效稳定运行。
621 9

推荐镜像

更多