哈希表、分布式一致性哈希及布隆过滤器详解-阿里云开发者社区

哈希表、分布式一致性哈希及布隆过滤器详解

2024-01-09 173

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 哈希表、分布式一致性哈希及布隆过滤器详解

背景

使用 word 文档时，word 如何判断某个单词是否拼写正确？
网络爬虫程序，怎么让它不去爬相同的 url 页面？
缓存穿透问题如何解决？

二分查找

有序数组
平衡二叉搜索树（AVL和RBT）O(log2n)时间复杂度
平衡多路搜索树（B树、B+树）
多层级有序链表（跳表）

哈希

使用流程：通过 hash函数对key运算，获取到该key在哈希表所在的索引，将该KV放到该位置。

hash函数选择：

计算速度快
强随机分布（等概率、均匀地分布在整个地址空间）
murmurhash123，其中murmurhash2的计算速度及强随机分布性能优秀；redis6.0中使用siphash；cityhash；

哈希冲突及解决办法

hash 函数可能会把两个或两个以上的不同 key ，映射到同一地址，这种情况称之为冲突。冲突的剧烈程度用负载因子描述。负载因子计算：数组存储元素的个数 / 数组长度。

拉链法：顾名思义就是将冲突的元素通过链表的方式连在一起，如果冲突元素过多，也就是链表长度过长，可以将链表优化为红黑树或者最小堆。
开放寻址法：步骤1：当插入新元素的时，使用哈希函数在哈希表中定位元素位置；步骤2：检查数组中该槽位索引是否存在元素。如果该槽位为空，则插入，否则执行步骤3；步骤3：在 2 检测的槽位索引上加一定步长继续执行步骤2；其中：补偿可以是线性如：i+1、+2、+3，也可以是非线性如：平方：i+1 、+2 、+9 、+16等等。缺点：会造成hash聚集，也就是近似值，它的hash值也近似，那么它的数组槽位也接近。可使用双重hash。

布隆过滤器

布隆过滤器是一种概率性数据结构，特点是高效插入和查询，能确定某个元素一定不存在，而确定存在有一定的误判率。

布隆过滤器，不存储具体元素，所以占用空间小，虽然存在误判，但是误判率可控。不支持删除操作。

构成：位图（BIT数组）和若干hash函数

原理

当一个元素加入位图时，通过 k 个 hash 函数将这个元素映射到

位图的 k 个点，并把它们置为 1；当检索时，再通过 k 个 hash

函数运算检测位图的 k 个点是否都为 1；如果有不为 1 的点，那

么认为该 key 不存在；如果全部为 1，则可能存在；

为什么不支持删除操作？

在位图中，只有0和1两种状态。如果一个槽位被设置为1，因为你是无法知道它被哪个key通过哪个hash函数所设置或者设置了多少次。

举例说明：图中的两个key：str1和str2，分别通过三个哈希函数：h1 h2 h3，被映射到途中的三个bit位并置1。假设要判断str1存不存在，通过计算三个哈希值，看对应位置的bit是否全为1，要是有一个不为1，则不存在。如果是都为1，则不一定存在。

应用场景

布隆过滤器通常用于判断某个 key 一定不存在的场景，同时允

许判断存在时有误差的情况；

常见处理场景：① 缓存穿透的解决；② 热 key 限流；

如何使用

布隆过滤器有一下参数：

n – 预期布隆过滤器中元素的个数，如上图只有str1和str2 两
个元素那么 n=2
p – 假阳率，在0-1之间 0.000000
m – 位图所占空间
k – hash函数的个数
在确定了要存储的元素个数以及假阳率后可以通过一下网址的计算器算出m和k。https://hur.st/bloomfilter

分布式一致性hash

背景

在业务中，我们需要很从容的扩容或者缩容。怎么做呢？先看一般情况下我们是怎么做的？我们都是这么算的：hash（key）% size。这就存在一个问题，如果增加机器或者减少机器导致size发生变化。那么我们之前的缓存就失效了。

可以考虑固定hash计算公式的size，分布式一致性哈希就是这么做的，缺点：分布式一致性哈希只能解决局部缓存失效。

原理

分布式一致性 hash 算法将哈希空间组织成一个虚拟的圆环，圆

环的大小是2^32 ；hash（ip）的值对2的32次方取余，最终会得到一个 [0, 2的32次方-1] 之间的一个无符号整型，这个整数代表服务器的编号；多个服务器都通过这种方式在 hash 环上映射一个点来标识该服务器的位置；当用户操作某个 key，通过同样的算法生成一个值，沿环顺

时针定位某个服务器，那么该 key 就在该服务器中；

应用场景

分布式缓存，将数据均衡的分布在不同的机器，分摊服务器压力。

存在问题及解决办法

hash偏移：hash算法是随机的，不能保证服务器节点均匀分布在hash环上，造成访问请求不均匀，服务器的压力也不同。

为了解决hash偏移问题，引入了虚拟节点。举例说明下：

假设现在有三台服务器：192.168.1.100:50000、192.168.1.101:50001、192.168.1.102:50002，为这三个服务器节点，计算多个虚拟节点，如：hash(“IP:PORT:seq”) %2^32；

对第一台机器，另外两台机器执行类似步骤得到多个节点：

hash（192.168.1.100:50000:1）

hash（192.168.1.100:50000:2）

hash（192.168.1.100:50000:3）

hash（192.168.1.100:50000:4）

hash（192.168.1.100:50000:5）

理论上，哈希环上节点数越多，数据分布越均衡；

文章参考与<零声教育>的C/C++linux服务期高级架构线上课学习。有兴趣的同学可以了解下。

哈希表、分布式一致性哈希及布隆过滤器详解

背景

二分查找