redo log 原理解析

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: redo log 原理解析


redo log 如何保证数据不丢失



在介绍 Buffer Pool 的时候说到,MySQL 的增加改查操作都是在 Buffer Pool 里面进行的,比如更新数据,实际上就是更新 Buffer Pool 里面的缓存页。并且在更新缓存页的时候,还会更新 free 链表、flush 链表、LRU 链表,然后再由专门的后台 IO 线程,不定时地根据 flush 链表、LRU 链表,将更新过的缓存页刷到磁盘文件的数据页里。


但这个机制有一个漏洞,如果一个事务成功提交并更新了缓存页,但 IO 线程还没来得及将缓存页刷到磁盘文件(数据页)里,MySQL 就宕机了。那么很明显,内存数据会丢失,进而造成事务更新的数据丢失。

但是也不可能每提交一次事务,就把事务更新的缓存页往磁盘文件里刷一次,因为缓存页刷新到磁盘文件这个过程是随机写,性能是相当的差,这会导致数据库性能和并发能力大幅减弱。

所以 MySQL 引入了 redo log 机制,这个机制在事务被提交的时候,会将缓存页所做的修改,以日志的形式写入到 redo log 日志文件里面。这种日志大致的格式如下:

在表空间 XX 的第 YY 个数据页中偏移量为 ZZ 的位置更新了数据 DD


redo log 可以保证事务在提交之后数据不丢失,即便 MySQL 在更新之后的缓存页还没刷到磁盘里就宕机了,也是没关系的,因为做的修改已经记录在 redo log 日志里面了。MySQL 重启之后,只需要根据 redo log 重做一遍,恢复出来当时务更新的缓存页,然后再把缓存页刷到磁盘就可以了。

所以 redo log 本质就是保证事务提交成功之后,修改的数据绝对不丢失。而事务提交失败,则会基于 undo log 进行回滚,此时相当于啥也没做。

到这里可能有人会问了,事务提交的时候把修改过的缓存页都刷入磁盘,和事务提交的时候把做的修改都写入 redo log 日志文件,这不都是写磁盘么,有什么区别呢?其实很简单,相信你肯定能想出来。

因为 MySQL 加载数据和刷新数据都是以页为单位的,而缓存页一个是 16kb,数据比较大,刷入磁盘比较耗时。而且我们可能就修改了缓存页里几个字节的数据,如果每次都刷新一个缓存页,那么无疑是浪费资源;而且将缓存页刷入磁盘是随机读写,因为缓存页对应的数据页可能在磁盘任意的一个随机位置,而随机读写性能是非常差的。

但如果是写 redo log 日志则不会有此问题,因为一行 redo log 只占据几十个字节,就包含表空间号、数据页号、磁盘文件偏移量、 更新值,写入磁盘的速度很快。而且这个过程还是顺序 IO,每次都是追加到磁盘文件末尾去,速度是非常快的。

对于机械硬盘而言,虽然随机 IO 的性能很差,但顺序 IO 的性能还是很高的,否则 kafka 就不会有那么高的吞吐量了。

所以提交事务的时候,用 redo log 的形式记录所做的修改,性能会远远超过刷新缓存页的方式,这也可以让数据库的并发能力更强。


初识 redo log


redo log 的作用我们已经知晓,接下来简单看看 redo log 长什么样子。我们说 redo log 包含的内容如下:

在表空间 XX 的第 YY 个数据页中偏移量为 ZZ 的位置更新了数据 DD

所以它需要记录的就是:表空间号+数据页号+偏移量+修改几个字节的值+具体的值

并且根据修改的值的大小,redo log 划分为了不同的类型。比如 MLOG_1BYTE类型的日志指的就是修改了 1 个字节的值,MLOG_2BYTE 类型的日志指的就是修改了 2 个字节的值,以此类推,还有修改了 4 个字节的值的日志类型,修改了 8 个字节的值的日志类型。

当然,如果是一下子修改了一大串的值,类型就是 MLOG_WRITE_STRING,代表一下子在数据页的某个偏移量的位置插入或者修改了一大串的值。

所以一条 redo log 的结构大致如下所示:

redo log 里面记录的就是上面这些东西,因此这条 redo log 表达的语义就很明确了。

  • 日志类型:告诉我们这次增删改操作修改了多少字节的数据;
  • 表空间 ID:在哪个表空间操作的,这个表空间和逻辑概念中的数据表是对应的。此外对于 InnoDB 引擎而言,表空间你可以理解为磁盘上的一个 .ibd 文件,比如我们用 SQL 操作数据表 student ,那么底层就会操作磁盘文件 student.ibd;
  • 数据页号:修改了表空间中的哪些数据页;
  • 数据页中的偏移量:从数据页的哪个位置开始修改的;
  • 具体修改的数据:无需解释了,就是修改之后的数据;


有了这些信息,就可以精准地还原出一次增删改操作造成的数据变动了。

但如果是 MLOG_WRITE_STRING 类型的日志,因为不知道具体修改了多少字节的数据,所以其实会多一个字段,负责指定具体修改了多少字节的数据:

所以这就是 redo log 的底层结构,至少从表面上看并不复杂。当然如果往深了说还是很复杂的比如 redo log 还会记录你更新了哪些索引之类的,这些留到后面再说目前只需要对 redo log 有一个大致的了解即可,当 Buffer Pool 更新完数据之后,就会以上面这种格式往 redo log 日志文件里面写入一条 redo log 日志,来记录本次的修改


redo log 是一条一条写到磁盘里面的吗


我们上面介绍了 redo log 的基本结构,本质上就是一条日志,但它是一条一条写到磁盘里面的吗?答案不是的,其实 MySQL 内部还有一个数据结构,叫做 redo log block。

怎么理解呢?可以类比数据页,一个数据页可以包含很多行数据,而 MySQL 是以页为单位加载和刷新数据的。redo log 也是同理,它也不是单行单行地写入日志文件,而是用一个 redo log block 来存放多个单行日志。

一个 redo log block 是 512 字节,被分为 3 个部分,一个是 12 字节的 header 块头,一个是 496  字节的 body 块体,一个是 4 字节的 trailer 块尾。

而 12 字节的 header 头又分为了 4 个部分。

  • 4 字节的 block no,也就是块的唯一编号;
  • 2 字节的 data length,也就是往块里面写了多少字节的数据;
  • 2 字节的 first record group,这个是说每个事务会有多个 redo log,它们构成了一个组。在这个 block 里的第一组 redo log 的偏移量,就是这 2 个字节存储的;
  • 4 字节的 checkpoint on;

所以从上图可以看出,对于 redo log 而言,它确实是不停地追加写入到 redo log 磁盘文件里的,但其实每一个 redo log 都是写入到文件的一个 redo log block 里,一个 block 最多放 496 条 redo log 日志。

在写 redo log 的时候,先写到 redo log block 的 body 区域里,等满了之后,再将这个 redo log block 写到磁盘中。当然啦,所谓的 redo log block 就是 512 个字节在写文件的时候可以一个字节一个字节地写到磁盘文件,然后文件里面存放的就是很多很多字节,依次排开。然后其中的 512 个字节组合起来,就固定代表了一个 redo log block。

这其实是任何一个中间件系统,数据库系统,底层依赖磁盘文件存储数据的一个共同的原理,所以也不用把 redo log block 写入磁盘文件这个过程想象的太复杂了。就是每次把 512 个字节写到磁盘文件里面去,这 512 个字节我们称之为一个 redo log block。


redo log buffer 是什么



redo log buffer 可以类比 Buffer Pool,它们都是 MySQL 在启动之后就向操作系统申请的一块连续内存空间。Buffer Pool 是申请之后会划分成 N 多个空的缓存页和一些链表结构;redo log buffer 则是申请之后会划分成 N 多个空的 redo log block。

MySQL 提供了 innodb_log_buffer_size 参数用于指定 redo log buffer 的大小,默认是 16MB,已经够大了,毕竟一个 redo log block 才 512 字节而已,而 redo log 基本上也只有几个字节到几十个字节。

所以此时就很清晰了,MySQL 有一个结构叫 redo log buffer,它是 MySQL 在启动之后就向操作系统申请的一块连续内存,并且将内部划分为多个 redo log block。在写 redo log 时,其实是将 redo log 写到 redo log buffer 里的某个 redo log block 里面。并且写的时候,会先从第一个 redo log block 开始写,第一个写满了之后再写下一个,直到所有的 redo log block 都写满。

当 redo log buffer 里所有的 redo log block 都写满之后,那么就要刷到磁盘中了,而这个过程就是将 512 字节的 redo log block 追加到 redo log 日志文件中。

另外有一点需要注意,我们平时在执行事务的时候,每个事务往往会有多个增删改操作,那么就会有多个 redo log,这多个 redo log 就是一组 redo log。然后每次一组 redo log 都是先在别的地方暂存,等到执行完了,再把这一组 redo log 写到 redo log buffer 的 block 里去。

如果一组 redo log 太大了,比如更新的数据非常多,那么有可能造成一个 redo log block 放不下,此时就会存放在两个或多个 redo log block 中。但很多时候 redo log 都是不大的,那么一个 redo log block 就存放多组 redo log。

所以总结一下:一个事务往往会产生多条 redo log,它们形成了一组 redo log,然后一组 redo log 在事务提交时会被顺序写入到 redo log buffer 的某个 redo log block 中。


redo log buffer 何时刷盘


这里来探讨一个新的问题,redo log buffer 何时刷盘呢?直接给出结果:

1)如果写入 redo log buffer 的日志已经占据了总容量(16MB)的一半了,也就是有超过 8MB 的 redo log 在缓冲里,此时就会把它们刷入到磁盘文件里;

2)一个事务提交的时候,必须把它的那些 redo log 所在的 redo log block 都刷入到磁盘文件里去。只有这样,当事务提交之后,修改的数据才不会丢失,因为 redo log 里有重做日志,随时可以恢复事务做的修改;

3)后台线程定时刷新,有一个后台线程每隔 1 秒就会把 redo log buffer 里的 redo log block 刷到磁盘文件里去;

4)MySQL 关闭的时候,redo log block 都会刷入到磁盘里去;

忽略上面的第四条,因为关闭 MySQL 的时候必然会刷 redo log 到磁盘,我们看前三条。可以肯定的是,如果你瞬间执行了大量高并发的 SQL 语句,1 秒内就产生了超过 8MB 的 redo log,此时占据了 redo log buffer 一半的空间了,那么必然会直接把你的 redo log 刷入磁盘里去。

此外,平常执行的简单事务一般都是在几十毫秒到几百毫秒之间完成,单机事务性能一般不会超过 1 秒,否则数据库就太慢了。而如果在几十毫秒内执行完了一个事务,此时也会立马把这个事务的 redo log 都刷入磁盘。

总之,要保证执行事务的时候,redo log 都进入 redo log buffer,提交事务的时候,redo log 必须刷入磁盘文件,接着才算是事务提交成功,否则事务提交就是失败。保证这一点,就能确保事务提交之后,数据不会丢,因为有 redo log 在磁盘里面。

当然,要保证数据绝对不丢,还得将配置参数 innodb_flush_log_at_trx_commit 设置为 1(默认值),表示提交事务时,强行将 redo log 从 redo log buffer 刷到磁盘文件里面。

还是很好理解的,但这里还有一个问题,我们知道每一次增删改,MySQL 都会产生 redo log,这些 redo log 最终落入磁盘文件中,而该文件我们称为 redo log 文件。但是问题来了,redo log 文件只会有一个吗?

首先 redo log 文件会有一个专门的目录,这个目录可以通过 show variables like 'datadir' 来查看,通过 innodb_log_group_home_dir 参数进行设置。

然后该目录下的 redo log 文件可以有多个,每个文件的大小通过 innodb_log_file_size 参数指定,默认是 48MB,写满了一个就会写下一个。而数量则通过 innodb_log_files_in_group 参数指定,默认是 2 个。

所以默认情况下,目录里就两个日志文件,分别为 ib_logfile0 和 ib_logfile1,每个 48MB。先写第一个,写满了再写第二个,但如果第二个也写满了呢?很简单,继续写第一个,覆盖第一个日志文件里原来的 redo log 就可以了。

所以 MySQL 默认保留了最近的 96MB 的 redo log,但这其实已经很多了,毕竟 redo log 很小,一条通常就几个字节到几十个字节不等,96MB 足够存储上百万条 redo log 了。当然,如果你还想保留更多的 redo log,那么调节上述两个参数就可以了,比如将每个 redo log 文件的大小指定为 96MB,最多保留 100 个 redo log文件,这样就能存储最近 9 GB 多的 redo log。



本文深度参考自:

  • 儒猿技术窝《MySQL 实战高手》
相关文章
|
18天前
|
存储 缓存 Java
什么是线程池?从底层源码入手,深度解析线程池的工作原理
本文从底层源码入手,深度解析ThreadPoolExecutor底层源码,包括其核心字段、内部类和重要方法,另外对Executors工具类下的四种自带线程池源码进行解释。 阅读本文后,可以对线程池的工作原理、七大参数、生命周期、拒绝策略等内容拥有更深入的认识。
什么是线程池?从底层源码入手,深度解析线程池的工作原理
|
7天前
|
前端开发 Python
Flask原理解析
Flask原理解析
with open as f原理解析
with open as f原理解析
salt之pillar原理解析
salt之pillar原理解析
|
11天前
|
测试技术 开发者 Python
深入浅出:Python中的装饰器使用与原理解析
【9月更文挑战第20天】本文深入探讨Python中一个强大而神秘的功能——装饰器。通过浅显易懂的语言和生动的比喻,我们将一步步揭开装饰器的面纱,理解其背后的原理,并通过实际代码示例掌握如何运用装饰器来增强我们的函数功能。无论你是初学者还是有一定基础的开发者,这篇文章都将带给你新的启发和思考。
27 7
|
7天前
|
设计模式 SQL 安全
PHP中的设计模式:单例模式的深入探索与实践在PHP的编程实践中,设计模式是解决常见软件设计问题的最佳实践。单例模式作为设计模式中的一种,确保一个类只有一个实例,并提供全局访问点,广泛应用于配置管理、日志记录和测试框架等场景。本文将深入探讨单例模式的原理、实现方式及其在PHP中的应用,帮助开发者更好地理解和运用这一设计模式。
在PHP开发中,单例模式通过确保类仅有一个实例并提供一个全局访问点,有效管理和访问共享资源。本文详细介绍了单例模式的概念、PHP实现方式及应用场景,并通过具体代码示例展示如何在PHP中实现单例模式以及如何在实际项目中正确使用它来优化代码结构和性能。
|
29天前
|
域名解析 网络协议
DNS服务工作原理
文章详细介绍了DNS服务的工作原理,包括FQDN的概念、名称解析过程、DNS域名分级策略、根服务器的作用、DNS解析流程中的递归查询和迭代查询,以及为何有时基于IP能访问而基于域名不能访问的原因。
60 2
|
7天前
|
存储 关系型数据库 MySQL
binlog、redolog、undo log底层原理及ACID特性实现分享
在数据库管理系统中,日志机制是确保数据一致性、完整性和可靠性的关键组件。MySQL数据库中的binlog、redolog和undolog作为其核心日志系统,各自扮演着不同但同样重要的角色。本文将深入探讨这三种日志的底层原理以及它们如何分别实现ACID(原子性、一致性、隔离性、持久性)特性的不同方面。
15 0
|
25天前
|
负载均衡 网络协议 安全
DNS解析中的Anycast技术:原理与优势
【9月更文挑战第7天】在互联网体系中,域名系统(DNS)将域名转换为IP地址,但网络规模的扩张使DNS解析面临高效、稳定与安全挑战。Anycast技术应运而生,通过将同一IP地址分配给多个地理分布的服务器,并依据网络状况自动选择最近且负载低的服务器响应查询请求,提升了DNS解析速度与效率,实现负载均衡,缓解DDoS攻击,增强系统高可用性。此技术利用动态路由协议如BGP实现,未来在网络发展中将扮演重要角色。
56 0
|
2月前
|
API C# 开发框架
WPF与Web服务集成大揭秘:手把手教你调用RESTful API,客户端与服务器端优劣对比全解析!
【8月更文挑战第31天】在现代软件开发中,WPF 和 Web 服务各具特色。WPF 以其出色的界面展示能力受到欢迎,而 Web 服务则凭借跨平台和易维护性在互联网应用中占有一席之地。本文探讨了 WPF 如何通过 HttpClient 类调用 RESTful API,并展示了基于 ASP.NET Core 的 Web 服务如何实现同样的功能。通过对比分析,揭示了两者各自的优缺点:WPF 客户端直接处理数据,减轻服务器负担,但需处理网络异常;Web 服务则能利用服务器端功能如缓存和权限验证,但可能增加服务器负载。希望本文能帮助开发者根据具体需求选择合适的技术方案。
67 0

热门文章

最新文章

推荐镜像

更多