【Redis源码】集群之分布式cluster原理(十四)

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 集群之分布式cluster原理(十四)

前言:

接着上一章开始讲,上一章我们讲到如果配置一个cluster,以及cluster的基础命令。以及初始化一个cluster的流程。本章继续讲一些cluster原理。

(一)消息结构

1.1 数据包类型

以下是数据包的类型:

#define CLUSTERMSG_TYPE_PING 0          /* Ping包类型 */
#define CLUSTERMSG_TYPE_PONG 1          /* Pong包类型 (Ping的返回信息) */
#define CLUSTERMSG_TYPE_MEET 2          /* meet包类型 */
#define CLUSTERMSG_TYPE_FAIL 3          /* fail包类型 */
#define CLUSTERMSG_TYPE_PUBLISH 4       /* 发布订阅消息包类型 */
#define CLUSTERMSG_TYPE_FAILOVER_AUTH_REQUEST 5 /* failover授权请求包 */
#define CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK 6     /* failover授权确认包 */
#define CLUSTERMSG_TYPE_UPDATE 7        /* update包,用于更新配置使用 */
#define CLUSTERMSG_TYPE_MFSTART 8       /* 手动failover包 */
#define CLUSTERMSG_TYPE_COUNT 9         /* 消息类型总数,用于计算边界. */

数据包类型在redis4.0中分为9总,redis5.0会多一种。其中CLUSTERMSG_TYPE_FAILOVER_AUTH_REQUEST、CLUSTERMSG_TYPE_FAILOVER_AUTH_ACK、CLUSTERMSG_TYPE_MFSTART三种包是没有包体结构的,也就是5,6,8类型。

1.2 clusterMsg消息结构:

typedefstruct {
   char sig[4];        /* Siganture "RCmb" (Redis Cluster message bus). */
   uint32_t totlen;    /* 消息总长度 */
   uint16_t ver;       /* 协议版本,当前设置为1。*/
   uint16_t port;      /* TCP端口号. */
   uint16_t type;      /* 消息类型 */
   uint16_t count;     /* data中的gossip session个数。(只在发送MEET、PING和PONG这三种消息时使用) */
   uint64_t currentEpoch;  /* 消息发送者纪元 */
   uint64_t configEpoch;   /* 如果消息发送者是一个主节点,那么该项为消息发送者配置纪元。
                             如果消息发送者是一个从节点,那么该项为发送者正在复制的主节点纪元。*/

   uint64_t offset;                        /* 复制偏移量. */
   char sender[CLUSTER_NAMELEN];           /* 发送节点名称 */
   unsignedchar myslots[CLUSTER_SLOTS/8]; /*消息发送者目前的槽指派信息*/
   char slaveof[CLUSTER_NAMELEN];          /*发送方如果是从,对应主的名称。*/
   char myip[NET_IP_STR_LEN];              /* 发送人IP地址,如果不是全部为0. */
   char notused1[34];                      /* 34 字节保留字节 */
   uint16_t cport;                         /* 发送方集群TCP 端口 */
   uint16_t flags;                         /* 发送人节点标志 */
   unsignedchar state;                    /* 消息发送者所在集群的状态 */
   unsignedchar mflags[3];                /* 消息标志: CLUSTERMSG_FLAG[012]_... */
   union clusterMsgData data;              /* 消息包内容 */
} clusterMsg;

clusterMsg结构中data对应包的内容,对应clusterMsgData结构这个是一个union结构。包的类型会根据type的不同映射对应的结构。

1.3 clusterMsgData结构:

union clusterMsgData {
   /* PING, MEET和 PONG包内容, 包是一个clusterMsgDataGossip结构数组。*/
   struct {
     
       clusterMsgDataGossip gossip[1];
   } ping;

   /* FAIL包内容 */
   struct {
       clusterMsgDataFail about;
   } fail;

   /* PUBLISH包内容 */
   struct {
       clusterMsgDataPublish msg;
   } publish;

   /* UPDATE包内容 */
   struct {
       clusterMsgDataUpdate nodecfg;
   } update;
};

clusterMsgData 结构体包含ping、fail、publish、update四种结构。其中ping结构提供给三种类型包使用,分别是ping、meet和pong。

1.4 clusterMsgDataGossip结构:

typedefstruct {
   char nodename[CLUSTER_NAMELEN];  //节点名称
   uint32_t ping_sent;              //发送ping时间
   uint32_t pong_received;          //返回pong时间
   char ip[NET_IP_STR_LEN];    /* 节点ip地址 */
   uint16_t port;              /* 节点端口 */
   uint16_t cport;             /* 节点监听集群端口 */
   uint16_t flags;             /* 节点状态 node->flags copy */
   uint32_t notused1;         //预留
} clusterMsgDataGossip;

clusterMsgDataGossip结构结构涵盖三种包格式:

1)ping包格式

ping包是一个心跳包,是redis集群中每个节点通过心跳包可以知道其他节点的当前状态并且保存到本节点状态中。

2)pong包格式

pong包是接收到ping包或者是meet包之后作为回复包类型。当进行主从切换之后,新的主节点会向集群中的所有节点直接发送一个pong包,通知从切换后节点角色的转换。

3)meet包格式

当执行cluster meet 命令之后,执行端会向ip:port指定的地址发送meet包。

1.5 clusterMsgDataFail结构:

typedefstruct {
   char nodename[CLUSTER_NAMELEN];  //节点名称
} clusterMsgDataFail;

clusterMsgDataFail用于fail包,fail包用来通知集群中某个节点处于故障状态。

1.6 clusterMsgDataPublish结构:

typedefstruct {
   uint32_t channel_len;        //渠道名称长度
   uint32_t message_len;        //消息长度
   unsignedchar bulk_data[8];  //渠道和消息内容
} clusterMsgDataPublish;

clusterMsgDataPublish结构用于发布/订阅包使用。当向集群中任意一个节点发送publish信息后,该节点会向集群中所有节点广播一条publish包。

1.7 clusterMsgDataUpdate结构:

typedefstruct {
   uint64_t configEpoch;                 /* 配置纪元. */
   char nodename[CLUSTER_NAMELEN];       /* 节点名称. */
   unsignedchar slots[CLUSTER_SLOTS/8]; /* 服务的slots */
} clusterMsgDataUpdate;

clusterMsgDataUpdate结构主要用于update包,update包用于更新集群节点中的配置。

(二)数据迁移

2.1 操作数据迁移命令

#将本节点的槽 slot 迁移到 node_id 指定的节点中
CLUSTER SETSLOT  MIGRATING

#从 node_id 指定的节点中导入槽 slot 到本节点
CLUSTER SETSLOT  IMPORTING

2.2数据迁移原理

如果A节点操作CLUSTER SETSLOT命令迁移10000槽到B节点,此时A、B两个节点都会存在10000槽。

typedefstructclusterState {
   //...省略
   clusterNode *migrating_slots_to[CLUSTER_SLOTS];   //迁移槽列表
   clusterNode *importing_slots_from[CLUSTER_SLOTS]; //导入槽列表
   clusterNode *slots[CLUSTER_SLOTS];                //当前槽列表
   //...省略
}

clusterState中分别存放三种槽的列表:迁移槽列表、导入槽列表、当前槽列表。

2.3数据迁移源码分析

voidclusterCommand(client *c) {
   //。。。省略
   int slot;
   clusterNode *n;

   if (nodeIsSlave(myself)) { //判断是否为从
       addReplyError(c,"Please use SETSLOT only with masters.");
       return;
   }
   
   if ((slot = getSlotOrReply(c,c->argv[2])) == -1) return; //获得槽,没有则返回
   
   if (!strcasecmp(c->argv[3]->ptr,"migrating") && c->argc == 5) {
       if (server.cluster->slots[slot] != myself) { //判读槽必须是当前节点
           addReplyErrorFormat(c,"I'm not the owner of hash slot %u",slot);
           return;
       }
       if ((n = clusterLookupNode(c->argv[4]->ptr)) == NULL) { //获取槽
           addReplyErrorFormat(c,"I don't know about node %s",
               (char*)c->argv[4]->ptr);
           return;
       }
       server.cluster->migrating_slots_to[slot] = n;  //设置迁移槽
   } elseif (!strcasecmp(c->argv[3]->ptr,"importing") && c->argc == 5) {
       if (server.cluster->slots[slot] == myself) { //判读槽不能是当前节点
           addReplyErrorFormat(c,
               "I'm already the owner of hash slot %u",slot);
           return;
       }
       if ((n = clusterLookupNode(c->argv[4]->ptr)) == NULL) {
           addReplyErrorFormat(c,"I don't know about node %s",
               (char*)c->argv[3]->ptr);
           return;
       }
       server.cluster->importing_slots_from[slot] = n;  //设置倒入槽
   }
}

migrating:满足条件

1)必须是master;

2)必须槽为0 ~ 16383数字;

3)必须槽是本节点的;

importing:满足条件

1)必须是master;

2)必须槽为0 ~ 16383数字;

3)必须槽不是本节点的;

总结:

1.redis4.0中有9种消息包类型,redis5.0种有10种消息包类型。其中涉及故障转移的三种包状态是没有包结构的。

2.消息包类型是通过clusterMsg结构中的type去映射不同的data包结构体。由于data对应的clusterMsgData 结构体是一个union结构。

3. migrating迁移槽时,需满足几个条件。必须是master,必须槽是本节点的。

4. importing倒入槽时,需满足几个条件。必须是master,必须槽是其他节点的。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
1月前
|
NoSQL Java Redis
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
Redis分布式锁在高并发场景下是重要的技术手段,但其实现过程中常遇到五大深坑:**原子性问题**、**连接耗尽问题**、**锁过期问题**、**锁失效问题**以及**锁分段问题**。这些问题不仅影响系统的稳定性和性能,还可能导致数据不一致。尼恩在实际项目中总结了这些坑,并提供了详细的解决方案,包括使用Lua脚本保证原子性、设置合理的锁过期时间和使用看门狗机制、以及通过锁分段提升性能。这些经验和技巧对面试和实际开发都有很大帮助,值得深入学习和实践。
太惨痛: Redis 分布式锁 5个大坑,又大又深, 如何才能 避开 ?
|
6天前
|
存储 Dubbo Java
分布式 RPC 底层原理详解,看这篇就够了!
本文详解分布式RPC的底层原理与系统设计,大厂面试高频,建议收藏。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
分布式 RPC 底层原理详解,看这篇就够了!
|
9天前
|
NoSQL Redis
Redis分布式锁如何实现 ?
Redis分布式锁通过SETNX指令实现,确保仅在键不存在时设置值。此机制用于控制多个线程对共享资源的访问,避免并发冲突。然而,实际应用中需解决死锁、锁超时、归一化、可重入及阻塞等问题,以确保系统的稳定性和可靠性。解决方案包括设置锁超时、引入Watch Dog机制、使用ThreadLocal绑定加解锁操作、实现计数器支持可重入锁以及采用自旋锁思想处理阻塞请求。
43 16
|
1月前
|
缓存 NoSQL Java
大数据-50 Redis 分布式锁 乐观锁 Watch SETNX Lua Redisson分布式锁 Java实现分布式锁
大数据-50 Redis 分布式锁 乐观锁 Watch SETNX Lua Redisson分布式锁 Java实现分布式锁
59 3
大数据-50 Redis 分布式锁 乐观锁 Watch SETNX Lua Redisson分布式锁 Java实现分布式锁
|
1月前
|
NoSQL Redis 数据库
计数器 分布式锁 redis实现
【10月更文挑战第5天】
48 1
|
1月前
|
NoSQL 算法 关系型数据库
Redis分布式锁
【10月更文挑战第1天】分布式锁用于在多进程环境中保护共享资源,防止并发冲突。通常借助外部系统如Redis或Zookeeper实现。通过`SETNX`命令加锁,并设置过期时间防止死锁。为避免误删他人锁,加锁时附带唯一标识,解锁前验证。面对锁提前过期的问题,可使用守护线程自动续期。在Redis集群中,需考虑主从同步延迟导致的锁丢失问题,Redlock算法可提高锁的可靠性。
74 4
|
1月前
|
存储 缓存 NoSQL
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
62 4
|
1月前
|
缓存 NoSQL Ubuntu
大数据-39 Redis 高并发分布式缓存 Ubuntu源码编译安装 云服务器 启动并测试 redis-server redis-cli
大数据-39 Redis 高并发分布式缓存 Ubuntu源码编译安装 云服务器 启动并测试 redis-server redis-cli
55 3
|
1月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
30 1
|
1月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
44 1