哈希表、分布式一致性哈希及布隆过滤器详解

简介: 哈希表、分布式一致性哈希及布隆过滤器详解

背景

  • 使用 word 文档时,word 如何判断某个单词是否拼写正确?
  • 网络爬虫程序,怎么让它不去爬相同的 url 页面?
  • 缓存穿透问题如何解决?

二分查找

  • 有序数组
  • 平衡二叉搜索树(AVL和RBT)O(log2n)时间复杂度
  • 平衡多路搜索树(B树、B+树)
  • 多层级有序链表(跳表)

哈希

使用流程:通过 hash函数对key运算,获取到该key在哈希表所在的索引,将该KV放到该位置。

hash函数选择:
  • 计算速度快
  • 强随机分布(等概率、均匀地分布在整个地址空间)
  • murmurhash123,其中murmurhash2的计算速度及强随机分布性能优秀;redis6.0中使用siphash;cityhash;
哈希冲突及解决办法

hash 函数可能会把两个或两个以上的不同 key ,映射到同一地址,这种情况称之为冲突。冲突的剧烈程度用负载因子描述。负载因子计算:数组存储元素的个数 / 数组长度。

  • 拉链法:顾名思义就是将冲突的元素通过链表的方式连在一起,如果冲突元素过多,也就是链表长度过长,可以将链表优化为红黑树或者最小堆。
    开放寻址法:步骤1:当插入新元素的时,使用哈希函数在哈希表中定位元素位置;步骤2:检查数组中该槽位索引是否存在元素。如果该槽位为空,则插入,否则执行步骤3;步骤3:在 2 检测的槽位索引上加一定步长继续执行步骤2;其中:补偿可以是线性如:i+1、+2、+3,也可以是非线性如:平方:i+1 、+2 、+9 、+16等等。缺点:会造成hash聚集,也就是近似值,它的hash值也近似,那么它的数组槽位也接近。 可使用双重hash

布隆过滤器

布隆过滤器是一种概率性数据结构,特点是高效插入和查询,能确定某个元素一定不存在,而确定存在有一定的误判率。

布隆过滤器,不存储具体元素,所以占用空间小,虽然存在误判,但是误判率可控。不支持删除操作。

构成:位图(BIT数组)和若干hash函数
原理

当一个元素加入位图时,通过 k 个 hash 函数将这个元素映射到

位图的 k 个点,并把它们置为 1;当检索时,再通过 k 个 hash

函数运算检测位图的 k 个点是否都为 1;如果有不为 1 的点,那

么认为该 key 不存在;如果全部为 1,则可能存在;

为什么不支持删除操作?

在位图中,只有0和1两种状态。如果一个槽位被设置为1,因为你是无法知道它被哪个key通过哪个hash函数所设置或者设置了多少次。

举例说明:图中的两个key:str1和str2,分别通过三个哈希函数:h1 h2 h3,被映射到途中的三个bit位并置1。假设要判断str1存不存在,通过计算三个哈希值,看对应位置的bit是否全为1,要是有一个不为1,则不存在。如果是都为1,则不一定存在。

应用场景

布隆过滤器通常用于判断某个 key 一定不存在的场景,同时允

许判断存在时有误差的情况;

常见处理场景:① 缓存穿透的解决;② 热 key 限流;

如何使用

布隆过滤器有一下参数:

  • n – 预期布隆过滤器中元素的个数,如上图 只有str1和str2 两
    个元素 那么 n=2
    p – 假阳率,在0-1之间 0.000000
    m – 位图所占空间
    k – hash函数的个数
    在确定了要存储的元素个数以及假阳率后可以通过一下网址的计算器算出m和k。https://hur.st/bloomfilter

分布式一致性hash

背景

在业务中,我们需要很从容的扩容或者缩容。怎么做呢?先看一般情况下我们是怎么做的?我们都是这么算的:hash(key)% size。这就存在一个问题,如果增加机器或者减少机器导致size发生变化。那么我们之前的缓存就失效了。

可以考虑固定hash计算公式的size,分布式一致性哈希就是这么做的,缺点:分布式一致性哈希只能解决局部缓存失效。

原理

分布式一致性 hash 算法将哈希空间组织成一个虚拟的圆环,圆

环的大小是2^32 ;hash(ip)的值对2的32次方取余,最终会得到一个 [0, 2的32次方-1] 之间的一个无符号整型,这个整数代表服务器的编号;多个服务器都通过这种方式在 hash 环上映射一个点来标识该服务器的位置;当用户操作某个 key,通过同样的算法生成一个值,沿环顺

时针定位某个服务器,那么该 key 就在该服务器中;

应用场景

分布式缓存,将数据均衡的分布在不同的机器,分摊服务器压力。

存在问题及解决办法

hash偏移:hash算法是随机的,不能保证服务器节点均匀分布在hash环上,造成访问请求不均匀,服务器的压力也不同。

为了解决hash偏移问题,引入了虚拟节点。举例说明下:

假设现在有三台服务器:192.168.1.100:50000、192.168.1.101:50001、192.168.1.102:50002,为这三个服务器节点,计算多个虚拟节点,如:hash(“IP:PORT:seq”) %2^32;

对第一台机器,另外两台机器执行类似步骤得到多个节点:

hash(192.168.1.100:50000:1)

hash(192.168.1.100:50000:2)

hash(192.168.1.100:50000:3)

hash(192.168.1.100:50000:4)

hash(192.168.1.100:50000:5)

理论上,哈希环上节点数越多,数据分布越均衡;

文章参考与<零声教育>的C/C++linux服务期高级架构线上课学习。有兴趣的同学可以了解下。


相关文章
|
1月前
|
数据采集 监控 NoSQL
优化分布式采集的数据同步:一致性、去重与冲突解决的那些坑与招
本文讲述了作者在房地产数据采集项目中遇到的分布式数据同步问题,通过实施一致性、去重和冲突解决的“三板斧”策略,成功解决了数据重复和同步延迟问题,提高了系统稳定性。核心在于时间戳哈希保证一致性,URL归一化和布隆过滤器确保去重,分布式锁解决写入冲突。
120 2
 优化分布式采集的数据同步:一致性、去重与冲突解决的那些坑与招
|
1月前
|
消息中间件 运维 监控
《聊聊分布式》BASE理论 分布式系统可用性与一致性的工程平衡艺术
BASE理论是对CAP定理中可用性与分区容错性的实践延伸,通过“基本可用、软状态、最终一致性”三大核心,解决分布式系统中ACID模型的性能瓶颈。它以业务为导向,在保证系统高可用的同时,合理放宽强一致性要求,并借助补偿机制、消息队列等技术实现数据最终一致,广泛应用于电商、社交、外卖等大规模互联网场景。
|
5月前
|
监控 算法 关系型数据库
分布式事务难题终结:Seata+DRDS全局事务一致性架构设计
在分布式系统中,CAP定理限制了可用性、一致性与分区容错的三者兼得,尤其在网络分区时需做出取舍。为应对这一挑战,最终一致性方案成为常见选择。以电商订单系统为例,微服务化后,原本的本地事务演变为跨数据库的分布式事务,暴露出全局锁失效、事务边界模糊及协议差异等问题。本文深入探讨了基于 Seata 与 DRDS 的分布式事务解决方案,涵盖 AT 模式实践、分片策略优化、典型问题处理、性能调优及高级特性实现,结合实际业务场景提供可落地的技术路径与架构设计原则。通过压测验证,该方案在事务延迟、TPS 及失败率等方面均取得显著优化效果。
330 61
|
存储 缓存 NoSQL
Redis常见面试题(二):redis分布式锁、redisson、主从一致性、Redlock红锁;Redis集群、主从复制,哨兵模式,分片集群;Redis为什么这么快,I/O多路复用模型
redis分布式锁、redisson、可重入、主从一致性、WatchDog、Redlock红锁、zookeeper;Redis集群、主从复制,全量同步、增量同步;哨兵,分片集群,Redis为什么这么快,I/O多路复用模型——用户空间和内核空间、阻塞IO、非阻塞IO、IO多路复用,Redis网络模型
Redis常见面试题(二):redis分布式锁、redisson、主从一致性、Redlock红锁;Redis集群、主从复制,哨兵模式,分片集群;Redis为什么这么快,I/O多路复用模型
|
11月前
|
存储 缓存 负载均衡
一致性哈希:解决分布式难题的神奇密钥
一致哈希是一种特殊的哈希算法,用于分布式系统中实现数据的高效、均衡分布。它通过将节点和数据映射到一个虚拟环上,确保在节点增减时只需重定位少量数据,从而提供良好的负载均衡、高扩展性和容错性。相比传统取模方法,一致性哈希能显著减少数据迁移成本,广泛应用于分布式缓存、存储、数据库及微服务架构中,有效提升系统的稳定性和性能。
644 1
|
消息中间件 缓存 算法
分布式系列第一弹:分布式一致性!
分布式系列第一弹:分布式一致性!
320 0
|
算法 Java 关系型数据库
漫谈分布式数据复制和一致性!
漫谈分布式数据复制和一致性!
161 0
|
存储 算法 NoSQL
(七)漫谈分布式之一致性算法下篇:一文从根上儿理解大名鼎鼎的Raft共识算法!
Raft通过一致性检查,能在一定程度上保证集群的一致性,但无法保证所有情况下的一致性,毕竟分布式系统各种故障层出不穷,如何在有可能发生各类故障的分布式系统保证集群一致性,这才是Raft等一致性算法要真正解决的问题。
332 11
|
存储 算法 索引
(六)漫谈分布式之一致性算法上篇:用二十六张图一探Raft共识算法奥妙之处!
现如今,大多数分布式存储系统都投向了Raft算法的怀抱,而本文就来聊聊大名鼎鼎的Raft算法/协议!
406 8
|
存储 NoSQL MongoDB
(四)成为分布式高手必经之路:理解那些工作在分布式系统底层的一致性模型
在分布式领域里,一致性成为了炙手可热的名词,缓存、数据库、消息中间件、文件系统、业务系统……,各类分布式场景中都有它的身影,因此,想要更好的理解分布式系统,必须要理解“一致性”这个概念。本文就展开聊聊 分布式系统里的一致性模型。
369 7

热门文章

最新文章

下一篇
oss云网关配置