数据结构与算法必知--- Bitmap位图与布隆过滤器

本文涉及的产品
云原生内存数据库 Tair,内存型 2GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Redis 版,经济版 1GB 1个月
简介: 数据结构与算法必知--- Bitmap位图与布隆过滤器

写在前



bitmap和布隆过滤器主要解决大数据去重的问题。用于对大量整型数据做去重和查询。其实如果并非如此大量的数据,有很多排重方案可以使用,典型的就是哈希表。


实际上,哈希表为每一个可能出现的数字提供了一个一一映射的关系,每个元素都相当于有了自己的独享的一份空间,这个映射由散列函数来提供(这里我们先不考虑碰撞)。实际上哈希表甚至还能记录每个元素出现的次数,这样的数据结构完成这个任务有点“大材小用”了。


如果用HashSet或HashMap存储,每一个用户ID都要存成int,占4字节即32bit。而一个用户在Bitmap中只占一个bit,内存节省了32倍!所以散列表最大的问题是所占用的空间非常大!!!


Bitmap位图算法



为什么用位图?


我们先来看一个问题,假设我们有1千万个(不重复、未排序)的整数需要存储,每个整数的大小范围是1到1亿。然后,给定任意一个整数X,我们需要快速判断X是否在刚才的1千万个整数内。这个问题该如何处理呢?


常规的做法肯定就是先考虑如何存储这1千万个整数,在Java中,int类型是4个字节,可以表示的范围区间是-2147483648~2147483647,所以每个整数都用int来表示是可行的。那么1千万个整数需要占用多少内存空间呢?两者相乘就是了,应该是4000万字节,也就是40MB。


而且如果我们存放的整数是是一亿个(甚至更大),每个整数大小范围是1到100亿怎么办?占用的内存空间将会是非常巨大的,是普通的计算机或者手机不能接受的(放不下)。


ps:多台机器存储的话,资源占用量太大;另外可以不用内存,但是I/O效率低;


所以我们需要使用位图这种数据结构来大大节省内存的使用量。


什么是位图?


我们知道Byte表示字节,一个字节等于8bit,这里的bit就和位图有关系。在上面的例子中,我们不是要存放1千万个整数嘛,那就申请一个具有1千万个bit的数组,用每个bit(二进制位)来表示一个整数,当前bit为0表示不存在这个整数,为1表示该整数就存在。


虽然数量是1千万个,但是每个数的范围是1到1亿,所以我们需要1亿个bit,换算下来,就是12.5MB,和刚才的40MB相比,节省的不是一点点。


位图是指内存中连续的二进制位,用于对大量的整型数据做去重和查询。Bit-map就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。


对于位图的底层存储结构实际为数组结构,目的是为了存储大量的数据,为了表示存储的数据是否存在,可以使用0/1代表true/false。


存储的数据流程为


  1. 根据自定义的hash计算公式得到对应的数组下标
  2. 并将数据进行相应的位运算得到的结果存储到数组中;


当需要查询数据时


  1. 将当前要查询的数据转换为对应的数组索引
  2. 根据索引定位数组中的数据并执行存储时位运算的相反操作判断数据是否存在


可以看出位图基于数组下标查询效率非常高效,且相对而言,位运算使用cpu计算也比较高效;由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。


位图也存在一些缺点,对于随着数据量的增加,要申请数组的空间也越来越大。


bitmap应用


1)可进行数据的快速查找,判重,删除,一般来说数据范围是int的10倍以下。

2)去重数据而达到压缩数据

比如 Java 中的 BitSet 类就是一个位图,Redis 也提供了 BitMap 位图类


布隆过滤器



为什么用布隆过滤器?


位图存在两个问题


  • 处理数字很方便,但是处理字符就稍微有点困难了
  • 关键)位图在数据量过大情况下导致了内存浪费


布隆过滤器为了解决内存占用的问题,由于位图实际是利用一个index来定位一个数据,如果在数据密集度相对稀疏的情况下,会导致数组空间浪费(存在大量空洞插槽); 布隆过滤器利用多个插槽位置来定义一个元素,尽最大的可能性来提高空间利用率; 对于一个数据对应多个插槽,实际就是利用多个hash函数生成多个索引位置。


什么是布隆过滤器?


布隆过滤器实际是基于位图来实现的一种数据存储结构,用来判断某个元素(key)是否在某个集合中。和一般的位图不同的是,这个算法无需存储key的值,对于每个key,只需要k个比特位,每个存储一个标志,用来判断key是否在集合中。


布隆过滤器最大的特点,就是对一个对象使用多个哈希函数。如果我们使用了 k 个哈希函数,就会得到 k 个哈希值,也就是 k 个下标,我们会把数组中对应下标位置的值都置为 1。布隆过滤器和位图最大的区别就在于,我们不再使用一位来表示一个对象,而是使用 k 位来表示一个对象。这样两个对象的 k 位都相同的概率就会大大降低,不仅能够解决单哈希容易造成冲突的问题,还能有效减少内存空间的使用。


但要注意的是,布隆过滤器 主要是为了解决空间浪费问题,并不能完全解决hash冲突;


由于hash冲突的存在会导致一些误判的发生(无中生有),虽然使用多个hash函数可以降低冲突的概率,但还是会存在一些极端的情况出现hash冲突,导致不存在的数据被布隆过滤器判定为存在;但是对于布隆过滤器判定为不存在的数据,是肯定不存在的。


虽然布隆过滤器对于空间利用率较高,但随着数组剩余空间越来越小,会导致hash冲突的概率越来越大,因此需要设置一个阈值,当剩余空间达到一定阈值后,就需要执行扩容,降低hash冲突概率。


优缺点:


  • 优点:不需要存储key,节省空间
  • 缺点:算法判断key在集合中时,有一定的概率key其实不在集合中,已经映射的数据无法删除


应用场景


redis 缓存穿透 就可以利用 布隆过滤器来降低缓存穿透发生概率;


redis 缓存穿透的理解 , 对于 redis中和数据库中都不存在的数据,当从redis中获取不到数据时,请求就会请求到服务端执行db查询操作(绕过缓存),当存在大量缓存穿透的情况就会导致redis和服务以及数据库的压力剧增;


当redis 使用 布隆过滤器后,


  • 首先能通过布隆过滤器的判定,对于不存在的数据,redis和db中肯定都不存在;
  • 但对于布隆过滤器判断为存在的数据,即使经过redis查询发生数据不存在,从而查找db也发现数据不存在 的情况, 但对于这种情况毕竟几率较低,即使出现了对整个redis以及服务的压力也不会非常大


其他:比如网络爬虫抓取时url去重,邮件提供商反垃圾黑名单Email地址去重,之所以需要k个比特位是因为我们大多数情况下处理的是字符串,那么不同的字符串就有可能映射到同一个位置,产生冲突(尽可能的降低hash冲突)。


总结



  • BitMap:把数值转化为数组的下标,下标对应的值只存放一个bit 0或1 ,0不存在 1存在。判断时 根据数值当做下标找到对应的 bit 值,1存在,0不存在
  • BloomFilter:把内容通过多个hash算法,转换成多个数组下标,下标对应的值只存放一个bit 0或1 ,0不存在 1存在。判断过滤时 多个下标对应的值都为1,则可能存在,只要有一个值为0,则一定不存在
相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
2月前
|
存储 算法 数据管理
【C/C++ 基础算法】 C/C++ 位图算法的使用
【C/C++ 基础算法】 C/C++ 位图算法的使用
61 0
|
2月前
|
存储 算法 NoSQL
海量数据处理数据结构之Hash与布隆过滤器
随着网络和大数据时代的到来,我们如何从海量的数据中找到我们需要的数据就成为计算机技术中不可获取的一门技术,特别是近年来抖音,快手等热门短视频的兴起,我们如何设计算法来从大量的视频中获取当前最热门的视频信息呢,这就是我们今天即将谈到的Hash和布隆过滤器。以下是Hash和布隆过滤器的一些常见应用:
49 2
|
1月前
|
存储 机器学习/深度学习 缓存
【数据结构】布隆过滤器原理详解及其代码实现
【数据结构】布隆过滤器原理详解及其代码实现
|
2月前
|
存储 数据采集 索引
深入浅出数据结构之布隆过滤器
深入浅出数据结构之布隆过滤器
|
2月前
|
算法 Go 数据库
数据结构/C++:位图 & 布隆过滤器
数据结构/C++:位图 & 布隆过滤器
27 0
|
2月前
|
存储 NoSQL 算法
深入浅出Redis(十一):Redis四种高级数据结构:Geosptial、Hypeloglog、Bitmap、Bloom Filter布隆过滤器
深入浅出Redis(十一):Redis四种高级数据结构:Geosptial、Hypeloglog、Bitmap、Bloom Filter布隆过滤器
|
2月前
|
存储 数据库 C++
高效处理大规模数据集的概率型数据结构—— 布隆过滤器 [C++入门]
高效处理大规模数据集的概率型数据结构—— 布隆过滤器 [C++入门]
28 0
|
1天前
|
算法 数据安全/隐私保护
基于GA遗传优化算法的Okumura-Hata信道参数估计算法matlab仿真
在MATLAB 2022a中应用遗传算法进行无线通信优化,无水印仿真展示了算法性能。遗传算法源于Holland的理论,用于全局优化,常见于参数估计,如Okumura-Hata模型的传播损耗参数。该模型适用于150 MHz至1500 MHz的频段。算法流程包括选择、交叉、变异等步骤。MATLAB代码执行迭代,计算目标值,更新种群,并计算均方根误差(RMSE)以评估拟合质量。最终结果比较了优化前后的RMSE并显示了SNR估计值。
15 7
|
3天前
|
算法 数据挖掘
MATLAB数据分析、从算法到实现
MATLAB数据分析、从算法到实现
|
10天前
|
机器学习/深度学习 算法 调度
Matlab|基于改进鲸鱼优化算法的微网系统能量优化管理matlab-源码
基于改进鲸鱼优化算法的微网系统能量管理源码实现,结合LSTM预测可再生能源和负荷,优化微网运行成本与固定成本。方法应用于冷热电联供微网,结果显示经济成本平均降低4.03%,提高经济效益。代码包括数据分段、LSTM网络定义及训练,最终展示了一系列运行结果图表。