redo log 原理解析

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: redo log 原理解析


redo log 如何保证数据不丢失



在介绍 Buffer Pool 的时候说到,MySQL 的增加改查操作都是在 Buffer Pool 里面进行的,比如更新数据,实际上就是更新 Buffer Pool 里面的缓存页。并且在更新缓存页的时候,还会更新 free 链表、flush 链表、LRU 链表,然后再由专门的后台 IO 线程,不定时地根据 flush 链表、LRU 链表,将更新过的缓存页刷到磁盘文件的数据页里。


但这个机制有一个漏洞,如果一个事务成功提交并更新了缓存页,但 IO 线程还没来得及将缓存页刷到磁盘文件(数据页)里,MySQL 就宕机了。那么很明显,内存数据会丢失,进而造成事务更新的数据丢失。

但是也不可能每提交一次事务,就把事务更新的缓存页往磁盘文件里刷一次,因为缓存页刷新到磁盘文件这个过程是随机写,性能是相当的差,这会导致数据库性能和并发能力大幅减弱。

所以 MySQL 引入了 redo log 机制,这个机制在事务被提交的时候,会将缓存页所做的修改,以日志的形式写入到 redo log 日志文件里面。这种日志大致的格式如下:

在表空间 XX 的第 YY 个数据页中偏移量为 ZZ 的位置更新了数据 DD


redo log 可以保证事务在提交之后数据不丢失,即便 MySQL 在更新之后的缓存页还没刷到磁盘里就宕机了,也是没关系的,因为做的修改已经记录在 redo log 日志里面了。MySQL 重启之后,只需要根据 redo log 重做一遍,恢复出来当时务更新的缓存页,然后再把缓存页刷到磁盘就可以了。

所以 redo log 本质就是保证事务提交成功之后,修改的数据绝对不丢失。而事务提交失败,则会基于 undo log 进行回滚,此时相当于啥也没做。

到这里可能有人会问了,事务提交的时候把修改过的缓存页都刷入磁盘,和事务提交的时候把做的修改都写入 redo log 日志文件,这不都是写磁盘么,有什么区别呢?其实很简单,相信你肯定能想出来。

因为 MySQL 加载数据和刷新数据都是以页为单位的,而缓存页一个是 16kb,数据比较大,刷入磁盘比较耗时。而且我们可能就修改了缓存页里几个字节的数据,如果每次都刷新一个缓存页,那么无疑是浪费资源;而且将缓存页刷入磁盘是随机读写,因为缓存页对应的数据页可能在磁盘任意的一个随机位置,而随机读写性能是非常差的。

但如果是写 redo log 日志则不会有此问题,因为一行 redo log 只占据几十个字节,就包含表空间号、数据页号、磁盘文件偏移量、 更新值,写入磁盘的速度很快。而且这个过程还是顺序 IO,每次都是追加到磁盘文件末尾去,速度是非常快的。

对于机械硬盘而言,虽然随机 IO 的性能很差,但顺序 IO 的性能还是很高的,否则 kafka 就不会有那么高的吞吐量了。

所以提交事务的时候,用 redo log 的形式记录所做的修改,性能会远远超过刷新缓存页的方式,这也可以让数据库的并发能力更强。


初识 redo log


redo log 的作用我们已经知晓,接下来简单看看 redo log 长什么样子。我们说 redo log 包含的内容如下:

在表空间 XX 的第 YY 个数据页中偏移量为 ZZ 的位置更新了数据 DD

所以它需要记录的就是:表空间号+数据页号+偏移量+修改几个字节的值+具体的值

并且根据修改的值的大小,redo log 划分为了不同的类型。比如 MLOG_1BYTE类型的日志指的就是修改了 1 个字节的值,MLOG_2BYTE 类型的日志指的就是修改了 2 个字节的值,以此类推,还有修改了 4 个字节的值的日志类型,修改了 8 个字节的值的日志类型。

当然,如果是一下子修改了一大串的值,类型就是 MLOG_WRITE_STRING,代表一下子在数据页的某个偏移量的位置插入或者修改了一大串的值。

所以一条 redo log 的结构大致如下所示:

redo log 里面记录的就是上面这些东西,因此这条 redo log 表达的语义就很明确了。

  • 日志类型:告诉我们这次增删改操作修改了多少字节的数据;
  • 表空间 ID:在哪个表空间操作的,这个表空间和逻辑概念中的数据表是对应的。此外对于 InnoDB 引擎而言,表空间你可以理解为磁盘上的一个 .ibd 文件,比如我们用 SQL 操作数据表 student ,那么底层就会操作磁盘文件 student.ibd;
  • 数据页号:修改了表空间中的哪些数据页;
  • 数据页中的偏移量:从数据页的哪个位置开始修改的;
  • 具体修改的数据:无需解释了,就是修改之后的数据;


有了这些信息,就可以精准地还原出一次增删改操作造成的数据变动了。

但如果是 MLOG_WRITE_STRING 类型的日志,因为不知道具体修改了多少字节的数据,所以其实会多一个字段,负责指定具体修改了多少字节的数据:

所以这就是 redo log 的底层结构,至少从表面上看并不复杂。当然如果往深了说还是很复杂的比如 redo log 还会记录你更新了哪些索引之类的,这些留到后面再说目前只需要对 redo log 有一个大致的了解即可,当 Buffer Pool 更新完数据之后,就会以上面这种格式往 redo log 日志文件里面写入一条 redo log 日志,来记录本次的修改


redo log 是一条一条写到磁盘里面的吗


我们上面介绍了 redo log 的基本结构,本质上就是一条日志,但它是一条一条写到磁盘里面的吗?答案不是的,其实 MySQL 内部还有一个数据结构,叫做 redo log block。

怎么理解呢?可以类比数据页,一个数据页可以包含很多行数据,而 MySQL 是以页为单位加载和刷新数据的。redo log 也是同理,它也不是单行单行地写入日志文件,而是用一个 redo log block 来存放多个单行日志。

一个 redo log block 是 512 字节,被分为 3 个部分,一个是 12 字节的 header 块头,一个是 496  字节的 body 块体,一个是 4 字节的 trailer 块尾。

而 12 字节的 header 头又分为了 4 个部分。

  • 4 字节的 block no,也就是块的唯一编号;
  • 2 字节的 data length,也就是往块里面写了多少字节的数据;
  • 2 字节的 first record group,这个是说每个事务会有多个 redo log,它们构成了一个组。在这个 block 里的第一组 redo log 的偏移量,就是这 2 个字节存储的;
  • 4 字节的 checkpoint on;

所以从上图可以看出,对于 redo log 而言,它确实是不停地追加写入到 redo log 磁盘文件里的,但其实每一个 redo log 都是写入到文件的一个 redo log block 里,一个 block 最多放 496 条 redo log 日志。

在写 redo log 的时候,先写到 redo log block 的 body 区域里,等满了之后,再将这个 redo log block 写到磁盘中。当然啦,所谓的 redo log block 就是 512 个字节在写文件的时候可以一个字节一个字节地写到磁盘文件,然后文件里面存放的就是很多很多字节,依次排开。然后其中的 512 个字节组合起来,就固定代表了一个 redo log block。

这其实是任何一个中间件系统,数据库系统,底层依赖磁盘文件存储数据的一个共同的原理,所以也不用把 redo log block 写入磁盘文件这个过程想象的太复杂了。就是每次把 512 个字节写到磁盘文件里面去,这 512 个字节我们称之为一个 redo log block。


redo log buffer 是什么



redo log buffer 可以类比 Buffer Pool,它们都是 MySQL 在启动之后就向操作系统申请的一块连续内存空间。Buffer Pool 是申请之后会划分成 N 多个空的缓存页和一些链表结构;redo log buffer 则是申请之后会划分成 N 多个空的 redo log block。

MySQL 提供了 innodb_log_buffer_size 参数用于指定 redo log buffer 的大小,默认是 16MB,已经够大了,毕竟一个 redo log block 才 512 字节而已,而 redo log 基本上也只有几个字节到几十个字节。

所以此时就很清晰了,MySQL 有一个结构叫 redo log buffer,它是 MySQL 在启动之后就向操作系统申请的一块连续内存,并且将内部划分为多个 redo log block。在写 redo log 时,其实是将 redo log 写到 redo log buffer 里的某个 redo log block 里面。并且写的时候,会先从第一个 redo log block 开始写,第一个写满了之后再写下一个,直到所有的 redo log block 都写满。

当 redo log buffer 里所有的 redo log block 都写满之后,那么就要刷到磁盘中了,而这个过程就是将 512 字节的 redo log block 追加到 redo log 日志文件中。

另外有一点需要注意,我们平时在执行事务的时候,每个事务往往会有多个增删改操作,那么就会有多个 redo log,这多个 redo log 就是一组 redo log。然后每次一组 redo log 都是先在别的地方暂存,等到执行完了,再把这一组 redo log 写到 redo log buffer 的 block 里去。

如果一组 redo log 太大了,比如更新的数据非常多,那么有可能造成一个 redo log block 放不下,此时就会存放在两个或多个 redo log block 中。但很多时候 redo log 都是不大的,那么一个 redo log block 就存放多组 redo log。

所以总结一下:一个事务往往会产生多条 redo log,它们形成了一组 redo log,然后一组 redo log 在事务提交时会被顺序写入到 redo log buffer 的某个 redo log block 中。


redo log buffer 何时刷盘


这里来探讨一个新的问题,redo log buffer 何时刷盘呢?直接给出结果:

1)如果写入 redo log buffer 的日志已经占据了总容量(16MB)的一半了,也就是有超过 8MB 的 redo log 在缓冲里,此时就会把它们刷入到磁盘文件里;

2)一个事务提交的时候,必须把它的那些 redo log 所在的 redo log block 都刷入到磁盘文件里去。只有这样,当事务提交之后,修改的数据才不会丢失,因为 redo log 里有重做日志,随时可以恢复事务做的修改;

3)后台线程定时刷新,有一个后台线程每隔 1 秒就会把 redo log buffer 里的 redo log block 刷到磁盘文件里去;

4)MySQL 关闭的时候,redo log block 都会刷入到磁盘里去;

忽略上面的第四条,因为关闭 MySQL 的时候必然会刷 redo log 到磁盘,我们看前三条。可以肯定的是,如果你瞬间执行了大量高并发的 SQL 语句,1 秒内就产生了超过 8MB 的 redo log,此时占据了 redo log buffer 一半的空间了,那么必然会直接把你的 redo log 刷入磁盘里去。

此外,平常执行的简单事务一般都是在几十毫秒到几百毫秒之间完成,单机事务性能一般不会超过 1 秒,否则数据库就太慢了。而如果在几十毫秒内执行完了一个事务,此时也会立马把这个事务的 redo log 都刷入磁盘。

总之,要保证执行事务的时候,redo log 都进入 redo log buffer,提交事务的时候,redo log 必须刷入磁盘文件,接着才算是事务提交成功,否则事务提交就是失败。保证这一点,就能确保事务提交之后,数据不会丢,因为有 redo log 在磁盘里面。

当然,要保证数据绝对不丢,还得将配置参数 innodb_flush_log_at_trx_commit 设置为 1(默认值),表示提交事务时,强行将 redo log 从 redo log buffer 刷到磁盘文件里面。

还是很好理解的,但这里还有一个问题,我们知道每一次增删改,MySQL 都会产生 redo log,这些 redo log 最终落入磁盘文件中,而该文件我们称为 redo log 文件。但是问题来了,redo log 文件只会有一个吗?

首先 redo log 文件会有一个专门的目录,这个目录可以通过 show variables like 'datadir' 来查看,通过 innodb_log_group_home_dir 参数进行设置。

然后该目录下的 redo log 文件可以有多个,每个文件的大小通过 innodb_log_file_size 参数指定,默认是 48MB,写满了一个就会写下一个。而数量则通过 innodb_log_files_in_group 参数指定,默认是 2 个。

所以默认情况下,目录里就两个日志文件,分别为 ib_logfile0 和 ib_logfile1,每个 48MB。先写第一个,写满了再写第二个,但如果第二个也写满了呢?很简单,继续写第一个,覆盖第一个日志文件里原来的 redo log 就可以了。

所以 MySQL 默认保留了最近的 96MB 的 redo log,但这其实已经很多了,毕竟 redo log 很小,一条通常就几个字节到几十个字节不等,96MB 足够存储上百万条 redo log 了。当然,如果你还想保留更多的 redo log,那么调节上述两个参数就可以了,比如将每个 redo log 文件的大小指定为 96MB,最多保留 100 个 redo log文件,这样就能存储最近 9 GB 多的 redo log。



本文深度参考自:

  • 儒猿技术窝《MySQL 实战高手》
相关文章
|
1月前
|
存储 缓存 算法
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
102 14
|
2月前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
112 3
|
19天前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
27天前
|
SQL 关系型数据库 MySQL
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
MySQL事务日志-Undo Log工作原理分析
|
30天前
|
存储 物联网 大数据
探索阿里云 Flink 物化表:原理、优势与应用场景全解析
阿里云Flink的物化表是流批一体化平台中的关键特性,支持低延迟实时更新、灵活查询性能、无缝流批处理和高容错性。它广泛应用于电商、物联网和金融等领域,助力企业高效处理实时数据,提升业务决策能力。实践案例表明,物化表显著提高了交易欺诈损失率的控制和信贷审批效率,推动企业在数字化转型中取得竞争优势。
103 16
|
1月前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
125 3
|
1月前
|
安全 关系型数据库 MySQL
MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!
《MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!》介绍了MySQL中的三种关键日志:二进制日志(Binary Log)、重做日志(Redo Log)和撤销日志(Undo Log)。这些日志确保了数据库的ACID特性,即原子性、一致性、隔离性和持久性。Redo Log记录数据页的物理修改,保证事务持久性;Undo Log记录事务的逆操作,支持回滚和多版本并发控制(MVCC)。文章还详细对比了InnoDB和MyISAM存储引擎在事务支持、锁定机制、并发性等方面的差异,强调了InnoDB在高并发和事务处理中的优势。通过这些机制,MySQL能够在事务执行、崩溃和恢复过程中保持
86 3
|
2月前
|
JavaScript 前端开发 API
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
Vue.js响应式原理深度解析:从Vue 2到Vue 3的演进
109 17
|
2月前
|
运维 持续交付 虚拟化
深入解析Docker容器化技术的核心原理
深入解析Docker容器化技术的核心原理
71 1
|
2月前
|
算法 Java 数据库连接
Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性
本文详细介绍了Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性。连接池通过复用数据库连接,显著提升了应用的性能和稳定性。文章还展示了使用HikariCP连接池的示例代码,帮助读者更好地理解和应用这一技术。
69 1

推荐镜像

更多