知乎高赞:为什么同样是分布式架构的Kafka需要Leader而Redis不需要

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
日志服务 SLS,月写入数据量 50GB 1个月
简介: 知乎高赞:为什么同样是分布式架构的Kafka需要Leader而Redis不需要

Redis不需要Leader这个观点其实有歧义,是不准确的,这个问题本质其实是涉及数据分片、数据副本一致性,接下来将为大家一一解答


1、Redis Cluster 架构


在Redis3.0版本开始,Redis引入了一种去中心化的集群架构,采用预分片的模式,一个集群中所有节点总共对应16384个槽位,在对一个key进行写入时,首先对key取hashcode,然后求模来映射到具体的某一个节点,其部署架构如下图所示:

9d5f885cc5e56f117a6bc16154ac1702.png

上述每一个节点中存储的数据都不一样,即每一个节点存储整体数据的一部分,并且为了实现去中心化每一个节点需要存储集群中所有key所对应存档的节点信息(即Key的路由信息),这样当客户端将查询key1的请求发送到redisA节点,但该key1实际存储在redisB节点,此时A节点需将该节点路由到实际存储该key的节点,内部实现一个重定向,从而实现访问任意一个节点都能查询到存储的值。


上述架构中是不需要存在Leader的,这也是所谓的集群去中心化设计思想的关键,但问题来了,如果集群中任意一个节点宕机不可用,存储在该节点中的数据就会丢失,为了解决这个问题,通常会引入主从架构,架构图如下所示:


f3b9c13f7aed6d71eff733eb3f542260.png

具体的做法是为每一个主节点引入一个或多个从节点,用来拷贝主节点的数据,上图中的每一个虚线框表示一个复制组,也称之为副本,副本之间的数据期望完全一致。


在主从架构中如何保证数据一致性呢?通常主从集群与客户端之间的交互方式有如下几种:


  • 客户端发送写请求到Master,在Master节点写入成功就返回给客户端,同时从节点异步复制数据,主从存在延迟,并且当主节点宕机存在丢数据的风险
  • 客户端发送写请求到Master,Master节点写入成功后,需要等待从从节点同样写入成功后才会向客户端返回成功,该方式会增大延迟,增加主从数据延迟,但还是无法避免主从数据不一致


上述两种情况,都无法确保数据在主从两个节点上的一致性


为什么同步双写也无法保证数据的一致性呢?

f324a0403ecdcb7255b67d13ca5387f7.png

客户端只有在master,slave同步写入成功后才会收到响应,乍一看,能提供一致性,其实不然,试想一下,例如将key1的数据先写入到Master节点,在写入从节点的过程中出现错误,客户端会收到写入失败,但此时去master中查询key1的数据,却能查询出上一次请求失败的数据,即客户端虽然收到了写入失败,但主节点却写入成功,造成了数据语义上的不一致性


即主从同步这种架构,主从节点、客户端的确认机制存在天然的不足,为了解决该问题,Raft等分布式副本数据强一致性协议就闪亮登场了。


2、副本之间强一致性协议


为了解决数据的高可用性,避免单点故障,通常会将数据同步为多份,高可用性是解决了,但带来了另外一个问题,多个副本数据之间如何保证一致性,为了解决该问题出现了诸如 raft、paxos等一致性协议。


Raft协议的数据复制说明图如下:


f64fe8c28dc328d78d139f8f64e99f75.png

图中客户端向Raft协议集群发起一个写请求,集群中的 Leader 节点来处理写请求,首先数据先存入 Leader 节点,然后需要广播给它的所有从节点,从节点接收到 Leader 节点的数据推送对数据进行存储,然后向主节点汇报存储的结果,Leader 节点会对该日志的存储结果进行仲裁,如果超过集群数量的一半都成功存储了该数据,主节点则向客户端返回写入成功,否则向客户端写入写入失败。


如果只有主节点写入成功,但其他从节点没有写入成功,就算数据被写入到Leader节点,但这部分数据对客户端来说是不可见的。


Raft协议主要分为两个部分:Leader节点选举与日志复制


Leader节点选举:从集群中选举一个Leader节点用于处理数据的读写,从节点只负责从Leader节点同步数据,并且Leader节点宕机,会自动触发选举,选举出一个新的Leader节点。


日志复制:数据写入主节点后,主节点需要将数据转发给从节点,只有集群中超过半数节点都成功将一条数据写入才向客户端返回成功。


Raft协议的实现细节本文不打算深究,大家如果感兴趣,可以在文末获取笔者的电子书,其中有一个系列专门阐述Raft协议的实现原理,本文只从设计层面剖析为什么Raft协议能实现数据的一致性


笔者认为Raft协议能确保数据的一致性,主要是引入了全局日志序号与已提交指针。


2.1 引入了全局日志序号


为了方便对日志进行管理与辨别,raft 协议为一条一条的消息进行编号,每一条消息达到主节点时会生成一个全局唯一的递增号,这样可以根据日志序号来快速的判断数据在主从复制过程中数据是否一致。


2.2 已提交指针


我们知道,日志先写入主节点,然后再进行传播,在集群中超过半数节点的写入成功之前,这条日志都不能认为写入成功,尽管已经存储到了主节点中,为了让客户端对这条日志不可见,Raft协议引入了已提交指针,只有小于等于已提交的数据才能被客户端感知


一条日志要能被提交的充分必要条件是日志得到了集群内超过半数节点成功追加,才能被认为已提交,才会向客户端返回成功,这样就实现了数据在集群内、客户端与集群之间的数据一致性语义


为了让大家更加深入的理解Raft协议数据性一致性问题,给出如下思考题,主从切换会导致Raft丢失数据吗?


例如一个Raft协议中有3个节点,各个节点的写入情况如下:


Node1:100

Node2:89

Node3:88


其中Node1为Leader节点,如果Node1节点宕机,整个集群触发重新选举,会丢失数据吗?


答案是肯定不会的


首先我们要先明白,在上面的状态下,已提交指针为89,因为集群有两个节点都成功写入了89,即向客户端返回成功的数据也是序号为89的数据,在选举过程中,Node3不可能会被选举为Leader,因为Node3中存储的数据小于Node2存储的数据,当Node2选举为新的Leader时,Node3会向Node2同步数据。


3、总结


本文从知乎上一个不严紧的问题出发,挖掘该问题的本质:分布式数据存储的数据分片与高可用(避免单点故障),从而又引发新的问题(数据副本之间的一致性)

相关文章
|
4天前
|
设计模式 存储 算法
分布式系统架构5:限流设计模式
本文是小卷关于分布式系统架构学习的第5篇,重点介绍限流器及4种常见的限流设计模式:流量计数器、滑动窗口、漏桶和令牌桶。限流旨在保护系统免受超额流量冲击,确保资源合理分配。流量计数器简单但存在边界问题;滑动窗口更精细地控制流量;漏桶平滑流量但配置复杂;令牌桶允许突发流量。此外,还简要介绍了分布式限流的概念及实现方式,强调了限流的代价与收益权衡。
34 11
|
6天前
|
设计模式 监控 Java
分布式系统架构4:容错设计模式
这是小卷对分布式系统架构学习的第4篇文章,重点介绍了三种常见的容错设计模式:断路器模式、舱壁隔离模式和重试模式。断路器模式防止服务故障蔓延,舱壁隔离模式通过资源隔离避免全局影响,重试模式提升短期故障下的调用成功率。文章还对比了这些模式的优缺点及适用场景,并解释了服务熔断与服务降级的区别。尽管技术文章阅读量不高,但小卷坚持每日更新以促进个人成长。
29 11
|
7天前
|
消息中间件 存储 安全
分布式系统架构3:服务容错
分布式系统因其复杂性,故障几乎是必然的。那么如何让系统在不可避免的故障中依然保持稳定?本文详细介绍了分布式架构中7种核心的服务容错策略,包括故障转移、快速失败、安全失败等,以及它们在实际业务场景中的应用。无论是支付场景的快速失败,还是日志采集的安全失败,每种策略都有自己的适用领域和优缺点。此外,文章还为技术面试提供了解题思路,助你在关键时刻脱颖而出。掌握这些策略,不仅能提升系统健壮性,还能让你的技术栈更上一层楼!快来深入学习,走向架构师之路吧!
42 11
|
9天前
|
自然语言处理 负载均衡 Kubernetes
分布式系统架构2:服务发现
服务发现是分布式系统中服务实例动态注册和发现机制,确保服务间通信。主要由注册中心和服务消费者组成,支持客户端和服务端两种发现模式。注册中心需具备高可用性,常用框架有Eureka、Zookeeper、Consul等。服务注册方式包括主动注册和被动注册,核心流程涵盖服务注册、心跳检测、服务发现、服务调用和注销。
45 12
|
21天前
|
消息中间件 架构师 数据库
本地消息表事务:10Wqps 高并发分布式事务的 终极方案,大厂架构师的 必备方案
45岁资深架构师尼恩分享了一篇关于分布式事务的文章,详细解析了如何在10Wqps高并发场景下实现分布式事务。文章从传统单体架构到微服务架构下分布式事务的需求背景出发,介绍了Seata这一开源分布式事务解决方案及其AT和TCC两种模式。随后,文章深入探讨了经典ebay本地消息表方案,以及如何使用RocketMQ消息队列替代数据库表来提高性能和可靠性。尼恩还分享了如何结合延迟消息进行事务数据的定时对账,确保最终一致性。最后,尼恩强调了高端面试中需要准备“高大上”的答案,并提供了多个技术领域的深度学习资料,帮助读者提升技术水平,顺利通过面试。
本地消息表事务:10Wqps 高并发分布式事务的 终极方案,大厂架构师的 必备方案
|
17天前
|
存储 算法 安全
分布式系统架构1:共识算法Paxos
本文介绍了分布式系统中实现数据一致性的重要算法——Paxos及其改进版Multi Paxos。Paxos算法由Leslie Lamport提出,旨在解决分布式环境下的共识问题,通过提案节点、决策节点和记录节点的协作,确保数据在多台机器间的一致性和可用性。Multi Paxos通过引入主节点选举机制,优化了基本Paxos的效率,减少了网络通信次数,提高了系统的性能和可靠性。文中还简要讨论了数据复制的安全性和一致性保障措施。
33 1
|
22天前
|
存储 NoSQL Java
使用lock4j-redis-template-spring-boot-starter实现redis分布式锁
通过使用 `lock4j-redis-template-spring-boot-starter`,我们可以轻松实现 Redis 分布式锁,从而解决分布式系统中多个实例并发访问共享资源的问题。合理配置和使用分布式锁,可以有效提高系统的稳定性和数据的一致性。希望本文对你在实际项目中使用 Redis 分布式锁有所帮助。
65 5
|
1月前
|
人工智能 运维 算法
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
引领企业未来数字基础架构浪潮,中国铁塔探索超大规模分布式算力
|
25天前
|
NoSQL Java 数据处理
基于Redis海量数据场景分布式ID架构实践
【11月更文挑战第30天】在现代分布式系统中,生成全局唯一的ID是一个常见且重要的需求。在微服务架构中,各个服务可能需要生成唯一标识符,如用户ID、订单ID等。传统的自增ID已经无法满足在集群环境下保持唯一性的要求,而分布式ID解决方案能够确保即使在多个实例间也能生成全局唯一的标识符。本文将深入探讨如何利用Redis实现分布式ID生成,并通过Java语言展示多个示例,同时分析每个实践方案的优缺点。
55 8
|
1月前
|
缓存 NoSQL PHP
Redis作为PHP缓存解决方案的优势、实现方式及注意事项。Redis凭借其高性能、丰富的数据结构、数据持久化和分布式支持等特点,在提升应用响应速度和处理能力方面表现突出
本文深入探讨了Redis作为PHP缓存解决方案的优势、实现方式及注意事项。Redis凭借其高性能、丰富的数据结构、数据持久化和分布式支持等特点,在提升应用响应速度和处理能力方面表现突出。文章还介绍了Redis在页面缓存、数据缓存和会话缓存等应用场景中的使用,并强调了缓存数据一致性、过期时间设置、容量控制和安全问题的重要性。
43 5