3万字聊聊什么是Redis(一)

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
日志服务 SLS,月写入数据量 50GB 1个月
简介: 大家好,我是Leo结束了漫长了MySQL,开始步入了Redis的殿堂。最近在做Redis技术输出时,明显发现进一步熟悉MySQL之后,对Redis的理解容易了许多。或许这就是进步吧!

大家好,我是Leo

结束了漫长了MySQL,开始步入了Redis的殿堂。最近在做Redis技术输出时,明显发现进一步熟悉MySQL之后,对Redis的理解容易了许多。或许这就是进步吧!

下面的思路部分,可以帮助你更好的理解这篇文章的知识体系。


思路



image.png


整体结构


Redis主要是由访问框架,操作模块,索引模块,存储模块,高可用集群支撑模块,高可用扩展支撑模块等组成,

Redis还有一些,丰富的数据类型,数据压缩,过期机制,数据淘汰策略,分片机制,哨兵模式,主从复制,集群化,高可用,统计模块,通知模块,调试模块,元数据查询等辅助功能。

接下来的Redis学习之路,主要是围绕介绍上述模块,功能,策略,机制,算法等知识的输出。


五大类型


String

String类型应该是我们用的最多的一种类型,它的底层是由简单的动态字符串实现的。

hash

hash类型也是我们用的最多的一种类型了,它是由压缩列表+哈希表共同实现的一种数据类型

list

list它是一种列表类型,也是我们常用类型之一,它是由双向链表+压缩列表共同实现的一种数据类型

set

set集合和上述类型不同,他不允许重复,所以一些特定的场景会优先考虑set类型,它是由整数数组+哈希表共同实现的一种数据类型

sort set

sortset是在set的基础上,做的一个提升,不允许重复的时候,还可以处理有序。主要应用与排序表之类的场景需求,它是由压缩链表+跳表实现的一种数据类型

数据结构

哈希表会在下文rehash那里详细介绍一下。

整数数组和双向链表也很常见,它们的操作特征都是顺序读写,也就是通过数组下标或者链表的指针逐个元素访问,操作复杂度基本是 O(N),操作效率比较低。

压缩列表实际上类似于一个数组,数组中的每一个元素都对应保存一个数据。和数组不同的是,压缩列表在表头有三个字段 zlbytes、zltail 和 zllen,分别表示列表长度、列表尾的偏移量和列表中的 entry 个数;压缩列表在表尾还有一个 zlend,表示列表结束。在压缩列表中,如果我们要查找定位第一个元素和最后一个元素,可以通过表头三个字段的长度直接定位,复杂度是 O(1)。而查找其他元素时,就没有这么高效了,只能逐个查找,此时的复杂度就是 O(N) 了。

跳表在链表的基础上,增加了多级索引,通过索引位置的几个跳转,实现数据的快速定位。在下述文章中的第五章节介绍过了跳表的相关说明。

3万字聊聊什么是MySQL


哈希为啥变慢了


Redis在处理一个键值对时,会进行一次hash处理,把键处理成一个地址码写入Redis的存储模块,随着我们key的越来越多,有一些key会存在同一个地址码的情况。(我在写hashmap的时候就介绍过hash碰撞的问题)

出现这种情况之后Redis作了一个键值对的扩展,也就是键值对+链表的方式。如下图,多个数据经过hash处理之后,都落到了key1值上。一个卡槽不可能存放两个值,于是就在这个卡槽存了指向一个链表的指针,通过链表存储多个值。

哈希链表

链表处理的就是多个key一样的问题,随着数据量的发展,哈希碰撞的情况越来越频繁,链表的数据也就越来越多。hash的性能是O(1),链表的性能是O(n)。所以整体的性能被拖下来了。为了改变这一现状,Redis引入了rehash。

rehash

rehash就是增加现有的哈希桶的数量,让逐渐增多的元素能在更多的哈希桶之间分散保存。从而减少单个桶的链表的元素数量,同时也减少单个桶的冲突。

首先Redis会先创建两个全局哈希表,我们这里定义为哈希表A,哈希表B。我们在插入一个数据时,先先存入A,随着A越来越多,Redis开始执行rehash操作。主要分为三步:

  • 给B分配更多的空间,一般都是A的两倍
  • 把A中的数据全部拷贝到B中
  • 释放A

上述rehash流程我们可以看出,当A中存在大量的数据,拷贝的效率是非常慢的!因为Redis的单线程性还会造成阻塞,导致Redis短时间无法提供服务。为了避免这一问题,Redis在rehash的基础上,采用了渐进式rehash。

渐进式 rehash

进化点就是在第二步拷贝的时候,并不是一次性拷贝的,而是分批次拷贝。在处理一个请求时,从A中的第一个索引位置开始,顺带着将这个索引位置上的所有元素拷贝到B中。等下一个请求后,再从A表中的下一个索引位置继续拷贝操作。这样就巧妙地把一次性大量拷贝的开销,分摊到了多次处理请求的过程中,避免了耗时操作,保证了数据的快速访问。


Redis单线程还是多线程


先来普及一下多线程的知识,一个CPU在运行多个线程时,会有一个多线程调用的消耗问题,而且还有多个线程调用时数据一致性的问题。这些都要单独处理,单独处理又会消耗性能。于是Redis统筹兼顾采用了单,多线程并用的思路。

在处理数据写入,读取属于键值对数据操作,采用单线程操作。在请求连接,从socket中读取请求,解析客户端发送请求,采用多线程操作

Redis巧妙的把所有需要延迟等待的操作全部转交给了多线程处理,在不需要等待的全部单线程处理。个人感觉这种设计思路很棒

tip:如果不按照这种方式设计的,连接之后等待,发送等待,接收等待估计要等死你哦。造成Redis线程阻塞,无法处理其他请求。

多路复用机制

IO多路复用机制是指一个线程处理多个IO流,也是我们经常听到的select/epoll机制。那么那些连接,等待的操作Redis都是如何处理的呢?

在Redis只运行单线程的情况下,同一时间存在多个监听套接字,和已连接的套接字,内核会一直监听这些连接请求和数据请求。一旦客户端发送请求就会以事件的方式通知Redis主线程处理。这就是Redis线程处理多个IO流的效果。

上文说到以事件方式通知Redis这里我们做一个扩展,select/epoll提供了基于事件的回调机制,不同的事件会调用相应的处理函数。一旦请求来了,立刻加到事件队列中,Redis单线程就会源源不断的处理该事件队列。解决了等待与扫描的资源浪费问题。


安全机制


Redis的持久化安全机制主要有两大块,一块是AOF日志,一块是RDB快照,接下来我们聊聊AOF与RDB的一些区别吧

AOF

Redis为了提升性能采用的是写后日志,先执行命令,后写日志,这样做的好处主要有两点

  • 只有当命令执行成功之后才会写入日志。这样就避免了写入日志之后,命令执行错误还要把日志删掉的问题。
  • 先执行写入操作,后写日志,这样同时也避免了阻塞当前的写操作

坏处是:

  • 如果一个命令执行完后,还没记录日志就宕机了,那么这个命令和相应的数据就有丢失的风险。
  • AOF虽然避免了对当前命令的阻塞,但可能会对下一个操作带来阻塞风险。因为AOF日志也是在主线程中执行的,并且是写入磁盘。

文件格式:

Redis收到一个 "set huanshao 公众号欢少的成长之路" 命令后,AOF的日志内容是,"*3" 表示当前命令有三个部分,每部分都是由“数字开头,后面紧跟着具体的命令、键或值。这里,数字表示这部分中的命令、键或值一共有多少字节。例如,+数字”开头,后面紧跟着具体的命令、键或值。这里,“数字”表示这部分中的命令、键或值一共有多少字节。例如,“3 set”表示这部分有 3 个字节,也就是“set”命令。

AOF写入策略

AOF提供了三种appendfsync可选值

  • Always,同步写回:每个写命令执行完,立马同步地将日志写回磁盘;
  • Everysec,每秒写回:每个写命令执行完,只是先把日志写到 AOF 文件的内存缓冲区,每隔一秒把缓冲区中的内容写入磁盘;
  • No,操作系统控制的写回:每个写命令执行完,只是先把日志写到 AOF 文件的内存缓冲区,由操作系统决定何时将缓冲区内容写回磁盘。

这三种都无法做到两全其美,同步写会可以做到数据一致性,但是写入磁盘的这个性能对比内存来说太差了,如果是每秒写的话,就会丢失1秒的数据,如果No配置的话宕机后丢失数据比较多。

最后三种配置如何选择,应该根据特定的业务场景。如果数据安全性过高就选择同步写回,如果适中就每秒写回,没安全性的话就选择No。

AOF重写机制

AOF日志是追加形式的,避免不了的就是文件过大之后,再写入日志的性能会有所下降,Redis为了解决这一难题,引入了重写机制。

重写机制主要做的事情是记录一个key值的最终修改结果,修改的历史记录一律排除。这样一来,一个命令就只有一个日志。如果要拿AOF日志恢复数据的话也能恢复出正确的数据。

重写机制流程就是主线程fork出一个后台子线程 bgrewriteaof后,fork会把主线程的内存拷贝一份给子线程bgrewriteaof,这样子线程就可以在不影响主线程阻塞的情况下进行重写操作了。

在这段期间,如果有新的请求写入过来,Redis会有两个日志,一个日志指正在使用的 AOF 日志,Redis 会把这个操作写到它的缓冲区。这样一来,即使宕机了,这个 AOF 日志的操作仍然是齐全的,可以用于恢复。另一处日志指新的 AOF 重写日志。这个操作也会被写到重写日志的缓冲区。这样,重写日志也不会丢失最新的操作。等到拷贝数据的所有操作记录重写完成后,重写日志记录的这些最新操作也会写入新的 AOF 文件,以保证数据库最新状态的记录。此时,我们就可以用新的 AOF 文件替代旧文件了。

RDB

RDB是一种内存快照,它是系统某一刻的数据备份写到磁盘上。这样就可以达到宕机后,可以恢复某一刻之前的所有数据。

生成RDB的两种方式

  • save:在主线程中执行,会导致阻塞;
  • bgsave:创建一个子进程,专门用于写入 RDB 文件,避免了主线程的阻塞,这也是 Redis RDB 文件生成的 默认配置

写时复制技术

首先介绍一下写时复制技术的由来,在Redis做RDB快照时(当前RDB还没有做完),来了一个修改数据的请求。如果把这个请求写入快照,那么就不符合那一刻的数据一致性。如果不写入快照把他丢弃,就会造成数据丢失还是会有数据一致性的问题。所以Redis借助操作系统提供的写时复制技术,在执行快照的同时,正常处理写操作。

处理流程

主线程fork创建子线程bgsave,可以共享主线程的所有内存数据,bgsave子线程运行后,开始读取主线程的内存数据,并把它们写入 RDB 文件。如果主线程对这些数据都是读操作,那么互不影响。如果是修改操作的话就会把这块数据复制一份,生成该数据的副本。然后主线程在这个副本上进行修改。同时bgsave 子进程可以继续把原来的数据写入 RDB 文件。

这样保证了快照的数据一致性,也保证了快照期间对正常业务的影响。

既然RDB那么牛逼,可否用RDB做持久化呢?

如果我们采用RDB做持久化的话,那么就要一直进行RDB快照,如果每2秒做一次快照的话,最坏的打算就要少50%的数据量,如果每秒做一次快照,可以完全保证数据的一致性但是带来的负面影响也是非常大的。

  • 频繁快照,导致磁盘IO占用影响,且磁盘内存开销非常大
  • RDB由bgsave处理,虽然不阻塞主线程,但是主线程新建bgsave时,会影响主线程,如果每秒新建一次,有可能会阻塞主线程的。

全量备份不行的话,增量备份是否可以用RDB做持久化呢?

增量备份与全量备份的区别就是,增量备份只备份修改的数据。如果是这样的话,我们就需要对每一个数据都加一个记录,这样开销是十分大的。如果为了增量备份牺牲了宝贵的内存资源,这就有点得不偿失了。

实战应用

上述我们介绍了AOF与RDB的区别,流程,优缺点。我们可以发现,如果只依靠某一种方式进行持久化都无法有效的达到数据一致性。

如果只用RDB,快照的频率不好把握,如果使用AOF,文件持续变大也是吃不消的。

最优的策略就是 RDB + AOF 假如每小时备份一次RDB,我们就可以利用RDB文件恢复那一刻的所有数据,然后再用AOF日志恢复这一小时的数据。


结尾


我们下期再见!


相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
存储 消息中间件 NoSQL
redis入门到精通系列(一):入门redis看这一篇就够了
如果你是计算机专业学生 ,那么一定使用过关系型数据库mysql。在请求量小的情况下,使用mysql不会有任何问题,但是一旦同时有成千上万个请求同时来访问系统时,就会出现卡顿甚至系统崩溃的情况。最典型的例子就是早期的12306购票网站,一旦到了购票高峰期,12306肯定崩溃。造成这个原因的罪魁祸首就是关系型数据库。
5117 0
redis入门到精通系列(一):入门redis看这一篇就够了
|
3月前
|
缓存 NoSQL 应用服务中间件
Redis实战篇
Redis实战篇
|
消息中间件 缓存 监控
【Redis 系列】redis 学习十三,Redis 常问简单面试题
【Redis 系列】redis 学习十三,Redis 常问简单面试题
118 0
|
7月前
|
存储 NoSQL Linux
Redis入门到通关之Redis5种网络模型详解
Redis入门到通关之Redis5种网络模型详解
107 1
|
7月前
|
NoSQL 网络安全 Redis
Redis进阶-Redis使用建议一二事
Redis进阶-Redis使用建议一二事
37 0
|
7月前
|
存储 NoSQL Linux
【Redis入门】 —— 关于Redis的一点儿知识
【Redis入门】 —— 关于Redis的一点儿知识
|
存储 缓存 监控
一文带你吃透Redis
一文带你吃透Redis
223 0
|
SQL 缓存 NoSQL
Redis学习记录
Redis学习记录
98 0
|
NoSQL Java Redis
万字详解Redis技术
Redis(Remote Dictionary Server)是一个开源的使用 ANSI C 标准(c语言)编写、支持网络、可基于内存亦可持久化、Key-Value 类型的非关系型数据库,并提供多种语言的 API. 本文干活满满~~~
万字详解Redis技术
|
存储 监控 NoSQL
3万字聊聊什么是Redis(四)
继上篇Redis技术总结三,我们继续聊聊Redis的相关技术!
3万字聊聊什么是Redis(四)