redis数据结构—哈希表

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: redis数据结构—哈希表

我在“redis存储结构”这篇文章中介绍了redis存储数据的方式——字典,redis的字典使用高效的hash table实现,这里详细介绍redis中哈希表的实现和工作原理

redis的哈希表结构
typedef struct dictht {
    //哈希表数组
    dictEntry **table;
    //哈希表大小
    unsigned long size;  
    //哈希表大小掩码,用于计算索引值
    unsigned long sizemask;
    //该哈希表已有的节点数量
    unsigned long used;
} dictht;

可以看到,redis的哈希表只是比我们常用的哈希表多了size、sizemask、used这三个额外字段,这三个字段是用来支持其它功能的,本文不详细介绍

redis的哈希表节点
typedef struct dictEntry {
    //键值对中的键
    void *key;
  
    //键值对中的值
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    //指向下一个哈希表节点,形成链表
    struct dictEntry *next;
} dictEntry;

1.next指针是用来解决哈希冲突的,没错,redis解决哈希冲突的方案是链地址法,也就是将哈希值相同的节点用链表组织起来,而redis使用rehash保证了这个链表的长度的不会太长,后面会详细介绍

2.key指向固定的对象string,这一点在“redis存储结构”文章中已经解释过

3.value使用union来实现保存不同类型值的功能,提供了较强的灵活性,且避免了全部使用指针的情况,节约了内存

哈希表的添加过程不再赘述,属于基础数据结构的范畴

解决哈希冲突

一、rehash

上文提到,redis使用链地址法解决哈希冲突,由于哈希表的数组长度在创建时就固定了,当节点数量过多时会造成链表长度过长,导致查询的时间复杂度降为O(N),导致性能降低的一个原因是数组长度,另一个是hash算法

redis的做法是,使用两个哈希表,一个为目前使用的,另一个为空,在当前使用的哈希表节点数等于数组长度时,即将发生哈希冲突,此时将另一个哈希表数组长度设置为当前的2倍,并将旧数组中的节点迁移到新数组中,这样一来,新的哈希表成为当前所使用的,并且数组的长度得到了增长,缓解了数组空间不足造成的哈希冲突

所以redis在使用哈希表时,实际上有两个哈希表,一个供当前使用,另一个供rehash使用

typedef struct dict {
    //两个Hash表,交替使用,用于rehash操作
    dictht ht[2]; 
} dict;

当旧哈希表的数据全部迁移到新哈希表后,旧哈希表的空间会被释放

rehash的过程可以进行多次,基于两个哈希表的交替使用来实现

一次性rehash的缺陷

按照我们的想法,当旧哈希表的节点数等于数组长度时,考虑进行rehash

1.rehash是一次性进行的吗?

2.rehash的过程中如果有新的数据添加进来,该怎么处理?

3.rehash的过程中如果要进行数据查找,去哪找?

当旧哈希表中的节点数量比较庞大时,一次性rehash会造成redis阻塞较长时间,无法响应其他请求,这显然不是redis的风格

渐进式rehash

既然一次性rehash会造成性能下降,那么分批次进行不就好了,

redis的方案是在 rehash 进行期间,每次哈希表元素进行新增、删除、查找或者更新操作时,Redis 除了会执行对应的操作之外,还会顺序将「旧哈希表」中索引位置上的所有 key-value 迁移到「新哈希表」 上

回到上面的问题

分次rehash的过程中会出现数据分布的情况,也就是一些数据在新哈希表中,另一些数据在旧哈希表中:

Q:

1.rehash的过程中如果有新的数据添加进来,该怎么处理?

2.rehash的过程中如果要进行数据查找,去哪找?

A:

1.如果有新的数据添加进来,将添加到新哈希表中,保证了旧哈希表的节点数只会减少,最终为空

2.先查找旧哈希表,如果没有,再查找新哈希表

rehash触发条件

在上文简单提到,当哈希节点数等于数组长度时,我们认为即将发生哈希冲突(实际上有可能已经发生),那么rehash的具体时机是怎么确定的?

触发 rehash 操作的条件,主要有两个:

  • 当负载因子大于等于 1 ,并且 Redis 没有在执行 bgsave 命令或者 bgrewiteaof 命令,也就是没有执行 RDB 快照或没有进行 AOF 重写的时候,就会进行 rehash 操作。
  • 当负载因子大于等于 5 时,此时说明哈希冲突非常严重了,不管有没有有在执行 RDB 快照或 AOF 重写,都会强制进行 rehash 操作。
  • 当负载因子小于0.1时,程序自动进行缩容操作

负载因子 = 哈希表中当前节点数 / 哈希表数组大小

推荐学习 https://xxetb.xetslk.com/s/p5Ibb

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
1月前
|
存储 NoSQL 算法
Redis设计与实现——数据结构与对象
Redis 是一个高性能的键值存储系统,其数据结构设计精妙且高效。主要包括以下几种核心数据结构:SDS、链表、字典、跳跃表、整数集合、压缩列表。此外,Redis 对象通过类型和编码方式动态转换,优化内存使用,并支持引用计数、共享对象和淘汰策略(如 LRU/LFU)。这些特性共同确保 Redis 在性能与灵活性之间的平衡。
|
3月前
|
存储 NoSQL Java
【数据结构进阶】哈希表
哈希表是一种高效的数据结构,通过哈希函数实现数据映射,支持平均O(1)时间复杂度的查找、插入和删除操作。本文详细介绍了哈希表的基本概念、哈希函数的设计(如直接定址法和除留余数法)以及哈希冲突的解决方法(如开放定址法和链地址法)。同时,文章通过代码实例展示了线性探测和链地址法两种哈希表的实现过程,并分析了各自的优缺点。最后总结指出,合理选择哈希函数和冲突解决策略是优化哈希表性能的关键。
161 2
|
4月前
|
NoSQL 算法 安全
Redis原理—1.Redis数据结构
本文介绍了Redis 的主要数据结构及应用。
Redis原理—1.Redis数据结构
|
6月前
|
数据库
数据结构中二叉树,哈希表,顺序表,链表的比较补充
二叉搜索树,哈希表,顺序表,链表的特点的比较
数据结构中二叉树,哈希表,顺序表,链表的比较补充
|
6月前
|
存储 消息中间件 缓存
Redis 5 种基础数据结构?
Redis的五种基础数据结构——字符串、哈希、列表、集合和有序集合——提供了丰富的功能来满足各种应用需求。理解并灵活运用这些数据结构,可以极大地提高应用程序的性能和可扩展性。
102 2
|
7月前
|
缓存 NoSQL PHP
Redis作为PHP缓存解决方案的优势、实现方式及注意事项。Redis凭借其高性能、丰富的数据结构、数据持久化和分布式支持等特点,在提升应用响应速度和处理能力方面表现突出
本文深入探讨了Redis作为PHP缓存解决方案的优势、实现方式及注意事项。Redis凭借其高性能、丰富的数据结构、数据持久化和分布式支持等特点,在提升应用响应速度和处理能力方面表现突出。文章还介绍了Redis在页面缓存、数据缓存和会话缓存等应用场景中的使用,并强调了缓存数据一致性、过期时间设置、容量控制和安全问题的重要性。
128 5
|
7月前
|
存储 NoSQL 关系型数据库
Redis的ZSet底层数据结构,ZSet类型全面解析
Redis的ZSet底层数据结构,ZSet类型全面解析;应用场景、底层结构、常用命令;压缩列表ZipList、跳表SkipList;B+树与跳表对比,MySQL为什么使用B+树;ZSet为什么用跳表,而不是B+树、红黑树、二叉树
|
7月前
|
存储 NoSQL Redis
Redis常见面试题:ZSet底层数据结构,SDS、压缩列表ZipList、跳表SkipList
String类型底层数据结构,List类型全面解析,ZSet底层数据结构;简单动态字符串SDS、压缩列表ZipList、哈希表、跳表SkipList、整数数组IntSet
|
14天前
|
编译器 C语言 C++
栈区的非法访问导致的死循环(x64)
这段内容主要分析了一段C语言代码在VS2022中形成死循环的原因,涉及栈区内存布局和数组越界问题。代码中`arr[15]`越界访问,修改了变量`i`的值,导致`for`循环条件始终为真,形成死循环。原因是VS2022栈区从低地址到高地址分配内存,`arr`数组与`i`相邻,`arr[15]`恰好覆盖`i`的地址。而在VS2019中,栈区先分配高地址再分配低地址,因此相同代码表现不同。这说明编译器对栈区内存分配顺序的实现差异会导致程序行为不一致,需避免数组越界以确保代码健壮性。
栈区的非法访问导致的死循环(x64)
|
7月前
|
存储 算法
非递归实现后序遍历时,如何避免栈溢出?
后序遍历的递归实现和非递归实现各有优缺点,在实际应用中需要根据具体的问题需求、二叉树的特点以及性能和空间的限制等因素来选择合适的实现方式。
174 58

热门文章

最新文章