【Redis原理探索】深入对持久化原理的认识（基础篇）

2023-01-10 160 发布于吉林

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Redis 开源版，标准版 2GB

云数据库 Tair（兼容Redis），内存型 2GB

日志服务 SLS，月写入数据量 50GB 1个月

简介： 【Redis原理探索】深入对持久化原理的认识（基础篇）

前提概要

为什么Redis需要持久化

Redis是一个内存数据库，内存级的IO，数据保存在内存中，但是我们都知道内存的数据变化是很快的，所以需要对数据持久化，否则丢数据。幸好Redis还为我们提供了持久化的机制，分别是 RDB(Redis DataBase) 和 AOF(Append Only File)。

🚄 Redis持久化的方式

🚄 快照(snapshot)

这不仅仅针对于Redis，快照的概念是全量的，比如游戏存档，RDB是Redis的快照，按照时间点的，但是时间点间隔大容易丢数据，好处是恢复速度快。记录了当时时间点所有全量的数据状态。

🚄 日志(log)

AOF是Redis日志，日志是线性，追加的，记录命令执行状态的，伴随Redis命令不断执行，Redis的日志会越来越大，但是因为记录所有redis操作所以数据恢复很全，但是因为日志是线性的，记录的是执行命令的文本，这样恢复数据也是重新执行一遍，比较慢。

Redis默认开启的是RDB，因为Redis快是其追求，而且Redis场景大多数也是缓存。所以持久化也是Redis必要的，因为如果数据没有，请求会透传Redis把MySQL压死。

🚄 日志的实现方式：

（append fsync always）Redis接受修改的操作，内存变现后开始堵塞，调io写入磁盘，返回成功，这样一个链式调用保证每一条命令不会丢失。

（append fsync no）Redis只把增删改的操作变化的刷给内核，而我们都知道程序给内核的数据不是立刻写入磁盘的。达到一定量级才批量写入(pagecache)。

（append fsync everysec）折中的方案是每秒钟刷一下，每秒控制丢失的量相对于第一种加时间限制。日志都是追加的，会越来越大，这样不行。Redis4.x后在开启AOF日志时，把删除抵消指令这件事变成全部删除，生成RDB再把该时间点RDB拼入日志，形成混合日志方案。

下面针对这两种方式来介绍一下。

🚄 持久化流程

Redis的数据可以保存在磁盘上，要有下面五个过程：

客户端向服务端发送写操作(数据在客户端的内存中)。

数据库服务端接收到写请求的数据(数据在服务端的内存中)。

服务端调用write和save进行系统调用，数据往磁盘上写(数据在系统内存的缓冲区中)。

操作系统将缓冲区中的数据转移到磁盘控制器上(数据在磁盘缓存中)。

磁盘控制器将数据写到磁盘的物理介质中(数据真正落到磁盘上)。

这5个过程是在理想条件下一个正常的保存流程，但是在大多数情况下，我们的机器等等都会有各种各样的故障，这里划分了两种情况：

Redis数据库发生故障，只要在上面的第三步执行完毕，那么就可以持久化保存，剩下的两步由操作系统替我们完成。

操作系统发生故障，必须上面5步都完成才可以。

这里只考虑了保存的过程可能发生的故障，其实保存的数据也有可能发生损坏，需要一定的恢复机制，不过在这里就不再延伸了。

现在主要考虑的是redis如何来实现上面5个保存磁盘的步骤。它提供了两种策略机制，也就是RDB和AOF。

🚄 RDB机制

🚄 自动触发

RDB其实就是把数据以快照的形式保存在磁盘上。什么是快照呢，你可以理解成把当前时刻的数据拍成一张照片保存下来。

RDB持久化是指在指定的时间间隔内将内存中的数据集快照写入磁盘。也是默认的持久化方式，这种方式是就是将内存中数据以快照的方式写入到二进制文件中，默认的文件名为dump.rdb。

在我们安装了redis之后，所有的配置都是在redis.conf文件中，里面保存了RDB和AOF两种持久化机制的各种配置。

既然RDB机制是通过把某个时刻的所有数据生成一个快照来保存，那么就应该有一种触发机制，是实现这个过程。对于RDB来说，提供了三种机制：save、bgsave、自动化。

save触发方式

该命令会阻塞当前Redis服务器，执行save命令期间，Redis不能处理其他命令，直到RDB过程完成为止。

具体流程如下：

执行完成时候如果存在老的RDB文件，就把新的替代掉旧的。

bgsave触发方式

执行该命令时，Redis会在后台异步进行快照操作，快照同时还可以响应客户端请求。具体流程如下：

具体操作是Redis进程执行fork操作创建子进程，RDB持久化过程由子进程负责，完成后自动结束。阻塞只发生在fork阶段，一般时间很短。基本上Redis内部所有的RDB操作都是采用bgsave命令。

🚄 自动触发

自动触发是由配置文件来完成的。在redis.conf配置文件中，里面有如下配置，我们可以去设置：

save：这里是用来配置触发 Redis的 RDB 持久化条件，也就是什么时候将内存中的数据保存到硬盘。比如“save m n”。表示m秒内数据集存在n次修改时，自动触发bgsave。

默认如下配置：

不需要持久化，那么你可以注释掉所有的 save 行来停用保存功能。

#表示900 秒内如果至少有 1 个 key 的值变化，则保存
save 900 1
#表示300 秒内如果至少有 10 个 key 的值变化，则保存
save 300 10
#表示60 秒内如果至少有 10000 个 key 的值变化，则保存
save 60 10000
复制代码

stop-writes-on-bgsave-error ：默认值为yes。

当启用了RDB且最后一次后台保存数据失败，Redis是否停止接收数据。这会让用户意识到数据没有正确持久化到磁盘上，否则没有人会注意到灾难（disaster）发生了。

如果Redis重启了，那么又可以重新开始接收数据了

rdbcompression ；默认值是yes。对于存储到磁盘中的快照，可以设置是否进行压缩存储。

rdbchecksum ：默认值是yes。在存储快照后，我们还可以让redis使用CRC64算法来进行数据校验，但是这样做会增加大约10%的性能消耗，如果希望获取到最大的性能提升，可以关闭此功能。
dbfilename ：设置快照的文件名，默认是 dump.rdb

dir：设置快照文件的存放路径，这个配置项一定是个目录，而不能是文件名。

🚄 RDB的优势和劣势

✔️ 优势

更加完整：RDB文件紧凑，全量备份，非常适合用于进行备份和灾难恢复。

可以异步刷盘：生成RDB文件的时候，redis主进程会fork()一个子进程来处理所有保存工作，主进程不需要进行任何磁盘IO操作。

快速恢复：RDB在恢复大数据集时的速度比 AOF 的恢复速度要快。

占用的空间较为少

❎ 劣势

RDB快照是一次全量备份，存储的是内存数据的二进制序列化形式，存储上非常紧凑。

当进行快照持久化时，会开启一个子进程专门负责快照持久化，子进程会拥有父进程的内存数据，父进程修改内存子进程不会反应出来，所以在快照持久化期间修改的数据不会被保存，可能丢失数据(指令传播会二次解决此问题，就是临时采用压缩赋值缓存区或者写缓存区去存储期间修改的数据)。

因为备份间隔时间过大，所以数据完整性和一致性稍微会差很多。

因为fork出一个子进程去处理数据，故此会更加损耗资源以及CPU的负担。

🚄 AOF机制

全量备份总是耗时的，有时候我们提供一种更加高效的方式AOF，工作机制很简单，redis会将每一个收到的写命令都通过write函数追加到文件中。通俗的理解就是日志记录。

🚄 持久化原理

他的原理看下面这张图：

每当有一个写命令过来时，就直接保存在我们的AOF文件中。

🚄 文件重写原理

AOF的方式也同时带来了另一个问题，持久化文件会变的越来越大，为了压缩AOF的持久化文件。

Redis提供了bgrewriteaof命令。将内存中的数据以命令的方式保存到临时文件中，同时会fork出一条新进程来将文件重写。

Redis Bgrewriteaof 命令. Redis Bgrewriteaof 命令用于异步执行一个 AOF（AppendOnly File）文件重写操作。. 重写会创建一个当前 AOF 文件的体积优化版本。. 即使 Bgrewriteaof执行失败，也不会有任何数据丢失，因为旧的 AOF 文件在 Bgrewriteaof 成功之前不会被修改。. 注意：从 Redis 2.4 开始， AOF重写由Redis自行触发， BGREWRITEAOF仅仅用于手动触发重写操作。.

重写AOF文件的操作，并没有读取旧的AOF文件，而是将整个内存中的数据库内容用命令的方式重写了一个新的AOF文件，这点和快照有点类似。

🚄 AOF也有三种触发机制

每修改同步always：同步持久化每次发生数据变更会被立即记录到磁盘性能较差但数据完整性比较好

每秒同步everysec：异步操作，每秒记录如果一秒内宕机，有数据丢失

不同no：从不同步

🚄 优点

AOF可以更好的保护数据不丢失，一般AOF会每隔1秒，通过一个后台线程执行一次fsync操作，最多丢失1秒钟的数据。

AOF日志文件没有任何磁盘寻址的开销，写入性能非常高，文件不容易破损。

AOF日志文件即使过大的时候，出现后台重写操作，也不会影响客户端的读写。

AOF日志文件的命令通过非常可读的方式进行记录，这个特性非常适合做灾难性的误删除的紧急恢复。比如某人不小心用flushall命令清空了所有数据，只要这个时候后台rewrite还没有发生，那么就可以立即拷贝AOF文件，将最后一条flushall命令给删了，然后再将该AOF文件放回去，就可以通过恢复机制，自动恢复所有数据

🚄 缺点

对于同一份数据来说，AOF日志文件通常比RDB数据快照文件更大

AOF开启后，支持的写QPS会比RDB支持的写QPS低，因为AOF一般会配置成每秒fsync一次日志文件，当然，每秒一次fsync，性能也还是很高的

以前AOF发生过bug，就是通过AOF记录的日志，进行数据恢复的时候，没有恢复一模一样的数据出来。

🚄 RDB和AOF到底该如何选择

选择的话，两者加一起才更好。因为两个持久化机制你明白了，剩下的就是看自己的需求了，需求不同选择的也不一定，但是通常都是结合使用。有一张图可供总结：

【Redis原理探索】深入对持久化原理的认识（基础篇）

前提概要

为什么Redis需要持久化