位图算法(BitMap)

简介: 位图算法(BitMap)

问题

假设有2亿个数,范围在0~3亿,给出一个数,判断这2亿个数中是否存在该数?使用内存不得超过500M

解决方式

定义一个3亿长度的整型数组int[],预先将所有数初始化,判断是否存在时只需int[number] != 0 即可判断。

时间复杂度:O(1)

空间复杂度:3亿 * 4 / 1024 / 1024 = 1144.5M

使用内存不符合要求, 那么我们应当如何解决呢?这时,就该用到BitMap了

前置知识

位移

位移分为左移和右移

  • 左移
    1 << 2 = 4; 表示1往左移2位,我们用二进制如下表示
# 1的二进制
0000 0001
# 左移2位
0000 0100 -> 4
  • 右移
    4 >> 2 = 1; 表示4往右移2位,用二进制如下表示
# 4的二进制
0000 0100
# 右移2位
0000 0001 -> 1

逻辑运算

  • 与运算
    5 & 4 = 4;表示两个数的二进制位做与运算,同位皆为1则结果为1,否则为0
# 5
0000 0101
# 4
0000 0100
# 与运算
0000 0100 -> 4
  • 或运算
    5 | 4 = 5; 表示两个数的二进制位做或运算,同位有一个为1则结果为1,都为0则为0
# 5
0000 0101
# 4
0000 0100
# 或运算
0000 0101 -> 5
  • 异或
    5 ^ 4 = 1; 表示两个数的二进制位做异或运算,同位不同则结果为1,相同则为0
# 5
0000 0101
# 4
0000 0100
# 或运算
0000 0001 -> 1

使用BitMap

我们知道,整型所表示的二进制位有32位,假设我们一个数存在则在该数的位置上表示1,不存在则表示0,则1个整型可表示32个数是否存在,如表示3是否存在的二进制为 0000 1000,那么我们的内存将会瞬间缩小32倍!

如假设我们有N个数{3, 10, 36, 66},则我们开出int[MAX/32+1]的int数组,这里的MAX指这些数中的最大的数,所以我们这里是开出3个长度int数组,具体结构表示如下:

data[0]: 0~31
data[1]: 31~63
data[2]: 64~95

假设我们要判断65是否存在,那么我们可以通过以下方式计算:

65 / 32 = 2 -> 定位到在下标为2的数组中:data[2]

65 % 32 = 1 -> 定位到65在data[2]的二进制的下标位置:1

所以我们只需通过一个除法,一个取余,就得到了65所在的位置,这时只需看看这个位置是否为1,就能判断65是否存在了。那这个是怎么看呢?我们画个图表示吧~

因为在给出的数中{3, 10, 36, 66},在data[2]的数只有66,所以我们的data[2]二进制表示形式如下所示:

这里省略了前面24位

而65经过以上的计算方式后的二进制表示形式如下

我们将data[2]&65,最后得出为0,则表示65不存在。

以上就是BitMap的核心思想了

算法实现

算法我们已经明白了,那么代码怎么写呢?

以上代码实现了添加和查找,那么删除该怎么做呢?这个小问题就留给大家了~

小结

以上我们从一个小问题开始讲述了如何通过BitMap进行解决,那么我们使用BitMap的时间复杂度和空间复杂度是多少呢?

时间复杂度:O(1)

空间复杂度:对于整型来说,占用空间是整型数组的1/32,对于以上问题所占用的空间为:

3亿 / 32 * 4 / 1024 / 1024 = 35.76M

BitMap如此高效且节约空间,我们能够用它解决哪些问题呢?

  • 数据判重
  • 不重复的数据进行排序

通过这两点,我们可以扩展出很多的场景应用

  • 找不重复的数
  • 过滤,如我们有1亿的商品,黑客使用一个不存在的商品id查询我们商品库,由于这个商品不存在,那么就无法走缓存了,最后请求会直接打到数据库上,黑客使用这种方式疯狂查询一个不存在的商品,如果没有别的措施,就会把我们的数据库打垮。那么我们就可以使用BitMap将这些商品id存到内存中,请求是判断这个BitMap中是否存在就可以啦~(其实这就是我们大名鼎鼎的布隆过滤器)
  • 统计,我们想要统计系统中用户的连续登陆情况,或者在某个时间段呢哪些天是否登陆,传统做法是将用户登陆情况存到数据库中,假设我们日活1亿用户,那么每日都将增加1亿的数据...但是当我们使用BitMap,这个问题将轻松解决,那么应当如何实现呢?
  • 用户标签,根据用户标签推荐用户可能需要的商品
  • .....

说了这么多BitMap的优点,那它的缺点是什么呢?

  • 处理不了重复数据,只知道存不存在(1或者0),不知道存在几个
  • 因为处理不了重复问题,所以处理不了Hash冲突,如果Hash冲突了,那就不知道这个位置上是谁了
  • 因为处理不了Hash冲突,所以不能对String类型进行处理,上面描述时也说明了,开的数组是最大数是什么,就要开多大的数组,假设我们只有10个数(范围0~2亿),这时候我们也得开2亿的空间,但是不如直接使用Map。

如何解决重复问题,且听下回分解~

目录
相关文章
|
6月前
|
存储 算法 数据管理
【C/C++ 基础算法】 C/C++ 位图算法的使用
【C/C++ 基础算法】 C/C++ 位图算法的使用
114 0
|
存储 人工智能 算法
【C++杂货铺】再谈哈希算法:位图 | 布隆过滤器 | 哈希切分
【C++杂货铺】再谈哈希算法:位图 | 布隆过滤器 | 哈希切分
84 0
【C++杂货铺】再谈哈希算法:位图 | 布隆过滤器 | 哈希切分
|
6月前
|
存储 算法
Algorithms_算法专项_Bitmap原理及应用
Algorithms_算法专项_Bitmap原理及应用
87 0
|
存储 算法 程序员
bitmap算法的PHP实现,快速去重排序,数据压缩储存
因为电路的逻辑只有0和1两个状态,这里的0和1并不是数字的0和1,0和1是表示两种不同的状态,0表示低电平,1表示高电平。因为计算机是由无数个逻辑电路组成的,只能根据0和1的无限位数和组合来表达信息。 电脑只认识0和1这两个数字,所有的数据在电脑中都是以0和1组成的编码存储的,这样的编码叫做二进制。一个0或一个1就叫做一个位 最初的计算机性能和存储容量都比较差,所以普遍采用4位BCD编码(这个编码出现比计算机还早,最早是用在打孔卡上的)。
361 0
|
存储 数据采集 缓存
数据结构与算法必知--- Bitmap位图与布隆过滤器
数据结构与算法必知--- Bitmap位图与布隆过滤器
|
存储 SQL 算法
漫画:Bitmap算法 整合版
为满足用户标签的统计需求,小灰利用Mysql设计了如下的表结构,每一个维度的标签都对应着Mysql表的一列。
179 0
漫画:Bitmap算法 整合版
|
算法
【算法】位图算法
【算法】位图算法
|
存储 算法 程序员
Bitmap 算法
位图算法,内存中连续的二进制位bit,用于对大量整型数据做去重和查询。 举个例子,给定一块长度是10bit的内存空间,依次插入4,3,2,1,怎么存储? 1. 给定长度是10的bitmap,每一个bit位分别对应着从0到9的10个整型数。
1534 0
|
算法 大数据 索引
大数据处理时的一种BitMap小算法
一种大数据外部排序(内存无法加载所有排序元素)、去除重复元素、快速找到随机被删除元素的BitMap小算法,核心思想即通过将一个数作为下标(index)来索引一个bit表示一个数是否存在,排序时的时间复杂度为O(N),需要的额外空间的复杂度O(N/8)...
1124 0