MySQL之深入InnoDB存储引擎——Checkpoint机制

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 一、引入由于页的操作首先都是在缓冲池中完成的,那么如果一条DML语句改变了页中的记录,那么此时页就是脏的,即缓冲池中页的版本要比磁盘的新。那么数据库需要将新版本的页刷新到磁盘。倘若每次一个页发生变化就刷新,那么开销会很大,若热点数据集中在某几个页中,那么数据库的性能将变得非常差。同时如果在缓冲池将新版本的页刷新到磁盘时发生了宕机,那么数据就不能恢复了。为了避免发生数据丢失的问题,当前事务数据库普遍都采用了 Write Ahead Log 策略,即当事务提交时,先写重做日志,再修改页。当由于发生宕机而导致数据丢失时,通过重做日志来完成数据的恢复,从而满足事务的持久性要求。

一、引入

由于页的操作首先都是在缓冲池中完成的,那么如果一条DML语句改变了页中的记录,那么此时页就是脏的,即缓冲池中页的版本要比磁盘的新。那么数据库需要将新版本的页刷新到磁盘。倘若每次一个页发生变化就刷新,那么开销会很大,若热点数据集中在某几个页中,那么数据库的性能将变得非常差。


同时如果在缓冲池将新版本的页刷新到磁盘时发生了宕机,那么数据就不能恢复了。为了避免发生数据丢失的问题,当前事务数据库普遍都采用了 Write Ahead Log 策略,即当事务提交时,先写重做日志,再修改页。当由于发生宕机而导致数据丢失时,通过重做日志来完成数据的恢复,从而满足事务的持久性要求。


如果说重做日志可以无限地增大,同时缓冲池也足够大,能够缓冲所有数据库的数据,那么是不需要将缓冲池中页的新版本刷回磁盘。因为发生宕机时完全可以通过重做日志来恢复数据库系统的数据到宕机发生的情况。然而现实是这两个条件是很难满足的,即使满足了,那么如果数据库运行了很久后发生宕机,那么使用重做日志进行恢复的时间也会非常的久。即缓冲池的容量和重做日志容量是有限的,所以需要定期将脏页刷回磁盘,在这样的情况下,引入了 Checkpoint(检查点)技术。


所谓 Checkpoint,是指一个触发点(时间点),当发生 Checkpoint 时,会将脏页(数据脏页和日志脏页)写回磁盘。总的来说,Checkpoint 是数据库管理系统中的一个操作,用于将脏页刷新到磁盘,以确保数据的持久性和一致性。


二、LSN

LSN 称为日志的逻辑序列号(log sequence number),是日志空间中每条日志的结束点,用字节偏移量来表示。在 InnoDB 存储引擎中,LSN 占8个字节,LSN 的值会随着日志的写入而逐渐变大。除了重做日志,每个页(在每个数据页的头部 FILE_HEADER 部分,有一个 FIL_PAGE_LSN 记录了该数据页最后被修改的日志序列位置)以及 Checkpoint 也会被分配一个LSN,以便在需要时可以按照顺序进行检索和恢复。


即 Checkpoint 是通过LSN实现,其由一个 LSN 表示,用来记录已经刷回磁盘的最新页的版本。


可以通过show engine innodb status来观察 redo log 里的 checkpoint,结果如下:


......
---
LOG
---
Log sequence number          38890249625                                                                                                                                             
Log buffer assigned up to    38890249625                                                                                                                                             
Log buffer completed up to   38890249625                                                                                                                                             
Log written up to            38890249625                                                                                                                                             
Log flushed up to            38890249625                                                                                                                                             
Added dirty pages up to      38890249625                                                                                                                                             
Pages flushed up to          38890249625                                                                                                                                             
Last checkpoint at           38890249625  
......


  • log sequence number 就是当前的 redo log (in buffer) 中的 LSN;
  • log flushed up to 是刷到 redo log file 磁盘数据中的 LSN;
  • pages flushed up to 是下一次即将做 checkpoint lsn 的位置,如果没有新数据写入则取 lsn 的值
  • last checkpoint at 是上一次检查点所在位置的 LSN。


当我们执行一条修改语句时,InnoDB 存储引擎的执行过程大概如下:

  1. 首先修改内存中的数据页,并在数据页中记录 LSN
  2. 在修改数据页的同时向 redo log in buffer 中写入 redo log,并记录下 LSN
  3. 写完 buffer 中的日志之后,当触发了日志刷盘的几种规则时,会向 redo log file on disk 刷入 redo 日志,并在该文件中记录下对应的 LSN
  4. 数据页不可能永远只停留在内存中,在某些情况下,会触发 checkpoint来 将内存中的脏页(数据脏页和日志脏页)刷到磁盘,所以会在本次 **checkpoint 脏页刷盘结束时,在 redo log 中记录 checkpoint 的 LSN 位置。**在 Checkpoint 完成之后,checkpoint LSN 之前的 Redo Log 就不再需要了
  5. 要刷入所有的数据页需要一定的时间来完成,中途刷入的每个数据页都会记下当前页所在的 LSN。


MySQL 在崩溃恢复时,会从重做日志 redo-log 的 Checkpoint 处开始执行重放操作。 它从 last Checkpoint 对应的 LSN 开始扫描 redo-log 日志,并将其应用到 buffer-pool 中,直到 last Checkpoint 对应的 LSN 等于 log flushed up to 对应的 LSN (也就是 redo-log 磁盘上存储的 LSN 值),则恢复完成 。


三、触发时机

Checkpoint 所做的事情无外乎是将缓冲池中的脏页刷回到磁盘,不同之处在于每次刷新多少页到磁盘,每次从哪里获取脏页,以及什么时间触发 Checkpoint。在 InnoDB 内部有两种 Checkpoint,分别为:


  • Sharp Checkpoint
  • Fuzzy Checkpoint


Sharp Checkpoint 发送在数据库关闭时将所有的脏页都刷新回磁盘,这是默认的工作方式,即参数 innodb_fast_shutdown=1。


但是若数据库在运行时也使用 Sharp Checkpoint,那么数据库的可用性就会受到很大影响。所以 InnoDB 存储引擎内部使用 Fuzzy Checkpoint 进行页的刷新,即每次只刷新一部分脏页。


InnoDB 存储引擎中可能发生时会触发 Fuzzy Checkpoint:


  • Master Thread Checkpoint:Master Thread 差不多以每秒或每十秒的速度从缓冲池的脏页列表中刷新一定比例的页回磁盘,这个过程是异步的,不会阻塞其他操作。
  • FLUSH_LRU_LIST Checkpoint:Buffer Pool 的 LRU 列表需要保留一定数量的空闲页面,来保证 Buffer Pool 中有足够的空间应对新的数据库请求。在空闲列表不足时,移除LRU列表尾端的页,若移除的页为脏页,则需要进行 Checkpoint。空闲数量阈值是可以配置的(默认是1024),这个检查在一个单独的 Page Cleaner 线程中进行。
  • Async/Sync Flush Checkpoint:当重做日志不可用(即 redo log 写满)时,需要强制将一些页刷新回磁盘,此时脏页从脏页列表中获取。


  1. 定义 checkpoint_age = redo_log_in_buffer_lsn - checkpoint_lsn,即有多少脏页还未刷回磁盘
  2. 定义 async_water_mark = 0.75 * total_redo_log_file_size,sync_water_mark = 0.9 * total_redo_log_file_size
  3. 如果 checkpoint_age < async_water_mark,那么不需要刷新任何脏页回磁盘
  4. 如果 async_water_mark < checkpoint_age < sync_water_mark,那么触发 Async Flush,从 Flush 列表刷新足够的脏页回磁盘,以满足checkpoint_age < async_water_mark
  5. 如果 checkpoint_age > sync_water(种情况一般很少见,除非设置的重做日志文件太小),那么触发 Sync Flush,从 Flush 列表刷新足够的脏页回磁盘,以满足checkpoint_age < async_water_mark
  6. 旧版本中 Async Flush 会阻塞发现问题的用户查询线程,Sync Flush 会阻塞所有查询线程,新版本中在独立的 Page Cleaner Thread 中执行,不会阻塞
  • Dirty Page too much Checkpoint:当脏页数量太多时会强制推进 Checkpoint,以保证缓冲区有足够的空闲页。innodb_max_dirty_pages_pct 的默认值为75,表示当缓冲池脏页比例达到该值时,就会强制进行 Checkpoint,刷新一部分脏页到磁盘。


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2天前
|
SQL 关系型数据库 MySQL
MySQL底层概述—10.InnoDB锁机制
本文介绍了:锁概述、锁分类、全局锁实战、表级锁(偏读)实战、行级锁升级表级锁实战、间隙锁实战、临键锁实战、幻读演示和解决、行级锁(偏写)优化建议、乐观锁实战、行锁原理分析、死锁与解决方案
MySQL底层概述—10.InnoDB锁机制
|
4天前
|
存储 缓存 关系型数据库
MySQL底层概述—5.InnoDB参数优化
本文介绍了MySQL数据库中与内存、日志和IO线程相关的参数优化,旨在提升数据库性能。主要内容包括: 1. 内存相关参数优化:缓冲池内存大小配置、配置多个Buffer Pool实例、Chunk大小配置、InnoDB缓存性能评估、Page管理相关参数、Change Buffer相关参数优化。 2. 日志相关参数优化:日志缓冲区配置、日志文件参数优化。 3. IO线程相关参数优化: 查询缓存参数、脏页刷盘参数、LRU链表参数、脏页刷盘相关参数。
MySQL底层概述—5.InnoDB参数优化
|
5天前
|
存储 SQL 关系型数据库
MySQL底层概述—4.InnoDB数据文件
本文介绍了InnoDB表空间文件结构及其组成部分,包括表空间、段、区、页和行。表空间是最高逻辑层,包含多个段;段由若干个区组成,每个区包含64个连续的页,页用于存储多条行记录。文章还详细解析了Page结构,分为通用部分(文件头与文件尾)、数据记录部分和页目录部分。此外,文中探讨了行记录格式,包括四种行格式(Redundant、Compact、Dynamic和Compressed),重点介绍了Compact行记录格式及其溢出机制。最后,文章解释了不同行格式的特点及应用场景,帮助理解InnoDB存储引擎的工作原理。
MySQL底层概述—4.InnoDB数据文件
|
5天前
|
存储 SQL 关系型数据库
MySQL底层概述—2.InnoDB磁盘结构
InnoDB磁盘结构主要包括表空间(Tablespaces)、数据字典(Data Dictionary)、双写缓冲区(Double Write Buffer)、重做日志(redo log)和撤销日志(undo log)。其中,表空间分为系统、独立、通用、Undo及临时表空间,分别用于存储不同类型的数据。数据字典从MySQL 8.0起不再依赖.frm文件,转而使用InnoDB引擎存储,支持事务原子性DDL操作。
158 100
MySQL底层概述—2.InnoDB磁盘结构
|
5天前
|
缓存 算法 关系型数据库
MySQL底层概述—1.InnoDB内存结构
本文介绍了InnoDB引擎的关键组件和机制,包括引擎架构、Buffer Pool、Page管理机制、Change Buffer、Log Buffer及Adaptive Hash Index。
152 97
MySQL底层概述—1.InnoDB内存结构
|
5天前
|
存储 缓存 关系型数据库
MySQL底层概述—3.InnoDB线程模型
InnoDB存储引擎采用多线程模型,包含多个后台线程以处理不同任务。主要线程包括:IO Thread负责读写数据页和日志;Purge Thread回收已提交事务的undo日志;Page Cleaner Thread刷新脏页并清理redo日志;Master Thread调度其他线程,定时刷新脏页、回收undo日志、写入redo日志和合并写缓冲。各线程协同工作,确保数据一致性和高效性能。
MySQL底层概述—3.InnoDB线程模型
|
10天前
|
存储 SQL 缓存
MySQL原理简介—2.InnoDB架构原理和执行流程
本文介绍了MySQL中更新语句的执行流程及其背后的机制,主要包括: 1. **更新语句的执行流程**:从SQL解析到执行器调用InnoDB存储引擎接口。 2. **Buffer Pool缓冲池**:缓存磁盘数据,减少磁盘I/O。 3. **Undo日志**:记录更新前的数据,支持事务回滚。 4. **Redo日志**:确保事务持久性,防止宕机导致的数据丢失。 5. **Binlog日志**:记录逻辑操作,用于数据恢复和主从复制。 6. **事务提交机制**:包括redo日志和binlog日志的刷盘策略,确保数据一致性。 7. **后台IO线程**:将内存中的脏数据异步刷入磁盘。
|
2月前
|
存储 缓存 关系型数据库
【MySQL进阶篇】存储引擎(MySQL体系结构、InnoDB、MyISAM、Memory区别及特点、存储引擎的选择方案)
MySQL的存储引擎是其核心组件之一,负责数据的存储、索引和检索。不同的存储引擎具有不同的功能和特性,可以根据业务需求 选择合适的引擎。本文详细介绍了MySQL体系结构、InnoDB、MyISAM、Memory区别及特点、存储引擎的选择方案。
【MySQL进阶篇】存储引擎(MySQL体系结构、InnoDB、MyISAM、Memory区别及特点、存储引擎的选择方案)
|
2月前
|
存储 关系型数据库 MySQL
MySQL存储引擎详述:InnoDB为何胜出?
MySQL 是最流行的开源关系型数据库之一,其存储引擎设计是其高效灵活的关键。InnoDB 作为默认存储引擎,支持事务、行级锁和外键约束,适用于高并发读写和数据完整性要求高的场景;而 MyISAM 不支持事务,适合读密集且对事务要求不高的应用。根据不同需求选择合适的存储引擎至关重要,官方推荐大多数场景使用 InnoDB。
82 7
|
3月前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
200 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件