【Redis的那些事 · 续集】Redis的位图、HyperLogLog数据结构演示以及布隆过滤器

简介: 位图的最小单位是bit,每个bit的值只能是0和1,位图的应用场景一般用于一些签到记录,例如打卡等。场景举例: 例如某APP要存储用户的打卡记录,如果按照正常的思路来做,可能是用户每天是否打卡的记录都单独设置一个key-value键值对来存储,这样的话,每个用户每天都需要耗费一个键值对空间。而如果是位图,就可以很方便地通过位图来进行记录


一、Redis位图


1、位图的最小单位是bit,每个bit的值只能是0和1,位图的应用场景一般用于一些签到记录,例如打卡等。


场景举例: 例如某APP要存储用户的打卡记录,如果按照正常的思路来做,可能是用户每天是否打卡的记录都单独设置一个key-value键值对来存储,这样的话,每个用户每天都需要耗费一个键值对空间。而如果是位图,就可以很方便地通过位图来进行记录,例如如下图:

1995789-20220101165802903-1364088580.png

 

位图不算基础数据结构或者特殊数据结构,其本质上还是字符串。由于每个bit代表一个数据,所以还可以当作是bit数组来看待。

 

2、可以通过命令:


setbit key 偏移量(索引位)  value(0/1,默认是0)

进行设置对应位置的位图数据。

通过命令:

getbit key 偏移量

可以获取到对应的位图索引数据。

也可以通过:

get key

来获取位图对应的字符串信息。


 1995789-20220101165843761-922817543.png

 

3、例如hello字符串的ascii码对应的二进制,分别是:


h: 01101000

e: 01100101

l: 01101100

l: 01101100

o: 01101111


以下设置字符串hello的位图操作,如图所示,字符串对应二进制数拼接起来的二进制,值为1所在的bit索引位(offset),使用:

setbit key offset 1

进行设置1即可。

 1995789-20220101165933861-932554592.png

 

setbit/gitbit 和 set/get 实际上是可以互相转换的,只是一种是操作bit位,一种是操作直接的值。同时可以互相交叉操作使用,例如setbit存储,get读取;set 存储,getbit读取等等。

 

4、可以通过命令: bitcount key 起始字符索引 结束字符索引


对指定key里面的数据,指定的字符索引区间内,获取到对应的位图数据是1的个数。如果不指定,则会获取到全部字符串对应位图的1的个数。如下图所示,结合以上二进制数据可知,h字符有3个1,o字符有6个1。

1995789-20220101170000477-985219408.png


以上指令操作可以适用于在类似打卡天数统计上使用,可以快速统计出区间内为1的数据个数。

 

5、通过命令:bitops  key  bit值(0/1)  起始字符索引 结束字符索引


可以获取到指定的区间内,第一次出现指定的bit值(0或1)所在的位图索引。如果不指定区间,默认代表字符串全部区间。如下图所示,hello里面,第一次出现1是在位图的第一个索引位置;第一次出现0是在第0个位图索引位;字符索引位为1代表第二个字符,第一次出现的值为1的位图索引位置为9。


注意: 字符串的索引,0到N,0代表第一个字符,例如’h’。位图的索引,也是0到N,0代表位图上面第一个bit位,值为0或者1,例如h的位图索引位置是0的值是0  (01101000)

1995789-20220101170306106-57173840.png

 

6、可以通过命令:


bitfield  key get 类型 位图索引

来获取指定类型数据的ascii码。

例如,以下截图中,命令:

bitfield hello get u8 0

其中,u8代表类型,u开头代表无符号数据,8代表获取8个bit位。如果是有符号的数据,是以i开头的。最后面的0,代表要获取的起始位图下标索引,此处是第0个索引。

hello五个字符,对应的ascii码分别为:104,101,108,108,111

如果以上命令的类型 u8 换成 u4 ,则获取到的值是0110,对应的值是6;以此类推。

也可以并列get获取,例如:

bitfield  key  get  type1 offset1  type2 offset2 ……

其他玩法,大佬们可以自己尝试。我这边有关操作可以参考如下截图所示内容。

1995789-20220101170329886-239475763.png

 

7、通过命令:


bitfield key set type 位图索引 ascii码

可以把对应的ascii码根据类型写入到指定的索引中,并且会返回原来索引被替换的ascii码值。


例如下图所示操作,位图索引从0开始,代表第一个字符h所在位置。97代表a的ascii码,执行以后,返回104(h的ascii码),并且通过get命令可以查看到字符串已经被替换了。

1995789-20220101170337350-2118249790.png

 

8、可以使用命令:


bitfield  key  incrby  type  索引  自增值

对指定类型和索引区间的值进行累加 ,如下图所示。h通过 u8 类型自增1,即h+1=i


注意:对于累加的数据不能超出指定类型的最大值,例如 u4 最大值是15,累加到15以后会自动折返为0。


1995789-20220101170344496-938807077.png

 

9、针对以上会出现折返的情况,可以使用溢出报错或者保持最大或最小值的方式来避免折返的情况。


使用命令:

Bitfield  key  overflow  fail  incrby  type  offset  value

可以实现溢出的时候,会返回nil;


使用命令:

Bitfield  key  overflow  sat  incrby  type  offset  value

可以实现当要溢出的时候,还是会返回当前的最大值或最小值。如下图所示。

1995789-20220101170352100-1450921889.png

 

二、HyperLogLog


10、HyperLogLog是一种可以快速去重的数据结构。但是有一定的误差率,大概在0.81%左右。应用场景一般是在需要针对一些大数据量的情况下进行去重计算大概的统计值使用,例如网站的PV量等等。


使用命令:

pfadd   key  value1  value2 ……

可以添加对应的多个数据集到指定的key里面去。

如果添加已经存在的数据,会被自动去重。

使用命令:pfcount key

可以统计数据集的个数。

使用命令:pfmerge 目标key  源key1   源key2  ……

可以对多个不同的key进行数据合并,并且数据集重复的会自动排重。


使用HyperLogLog的用途,是在针对大数据量的情况下,在允许一定的容错率的情况下,用它可以节约资源并且快速地进行排重。例如使用set来设置数据,资源损耗肯定是巨大的;但是使用hyperloglog来处理,资源损耗是固定的12kb,可以处理的数据量大约是2^64个数据。

1995789-20220101170403325-729245509.png


冷门科普:命令是pf开头,是为了纪念HyperLogLog的作者——Philippe Flajolet


三、布隆过滤器


11、布隆过滤器,最常见的场景是商品推荐业务。例如购物时候浏览的信息被记录以后,可以进行推荐其他同类型的其他商品。推荐的其他商品不会和浏览过的商品重复(去重),但是也存在一定的误差。


布隆过滤器源地址链接:

https://github.com/RedisBloom/RedisBloom

 

先进行下载,下载方式可以按照自己喜欢的方式下载。例如此处我下载到d目录下的wesky/bloom文件夹下。

 1995789-20220101170626508-492916146.png

 

然后进入到文件夹内,使用make命令进行编译。编译成功的话,会产生一个 redisbloom.so的文件。如下,我也很尴尬,没成功,就暂且到这里吧。

1995789-20220101170637800-1665123082.png

 

假如上面配置成功的话,启动redis服务的时候,可以把.so文件配置到redis.conf配置文件下,例如我上面所在的位置,新增的样式如下:

loadmodule D:/Wesky/Bloom/RedisBloom/redisbloom.so

或者使用命令启动的时候,使用命令进行指定:

redis-server --loadmodule D:/Wesky/Bloom/RedisBloom/redisbloom.so

 

由于当前我本机无法编译布隆过滤器源码,所以就暂且到这吧,请见谅。

布隆过滤器下,会有一些命令,供参考,大家可以根据自己情况,进行自己尝试,当作是留个悬念了。

命令:

bf.add  key  xxx

bf.madd  key  数据1   数据2 ……

bf.exists key 数据

bf.mexists key 数据1 数据2 ……


目录
相关文章
|
8月前
|
消息中间件 缓存 NoSQL
Redis各类数据结构详细介绍及其在Go语言Gin框架下实践应用
这只是利用Go语言和Gin框架与Redis交互最基础部分展示;根据具体业务需求可能需要更复杂查询、事务处理或订阅发布功能实现更多高级特性应用场景。
484 86
|
8月前
|
存储 消息中间件 NoSQL
Redis数据结构:别小看这5把“瑞士军刀”,用好了性能飙升!
Redis提供5种基础数据结构及多种高级结构,如String、Hash、List、Set、ZSet,底层通过SDS、跳表等实现高效操作。灵活运用可解决缓存、计数、消息队列、排行榜等问题,结合Bitmap、HyperLogLog、GEO更可应对签到、UV统计、地理位置等场景,是高性能应用的核心利器。
|
8月前
|
存储 缓存 NoSQL
Redis基础命令与数据结构概览
Redis是一个功能强大的键值存储系统,提供了丰富的数据结构以及相应的操作命令来满足现代应用程序对于高速读写和灵活数据处理的需求。通过掌握这些基础命令,开发者能够高效地对Redis进行操作,实现数据存储和管理的高性能方案。
262 12
|
8月前
|
存储 消息中间件 NoSQL
【Redis】常用数据结构之List篇:从常用命令到典型使用场景
本文将系统探讨 Redis List 的核心特性、完整命令体系、底层存储实现以及典型实践场景,为读者构建从理论到应用的完整认知框架,助力开发者在实际业务中高效运用这一数据结构解决问题。
|
8月前
|
存储 缓存 NoSQL
【Redis】 常用数据结构之String篇:从SET/GET到INCR的超全教程
无论是需要快速缓存用户信息,还是实现高并发场景下的精准计数,深入理解String的特性与最佳实践,都是提升Redis使用效率的关键。接下来,让我们从基础命令开始,逐步揭开String数据结构的神秘面纱。
|
C语言
【数据结构】栈和队列(c语言实现)(附源码)
本文介绍了栈和队列两种数据结构。栈是一种只能在一端进行插入和删除操作的线性表,遵循“先进后出”原则;队列则在一端插入、另一端删除,遵循“先进先出”原则。文章详细讲解了栈和队列的结构定义、方法声明及实现,并提供了完整的代码示例。栈和队列在实际应用中非常广泛,如二叉树的层序遍历和快速排序的非递归实现等。
1246 10
|
存储 算法
非递归实现后序遍历时,如何避免栈溢出?
后序遍历的递归实现和非递归实现各有优缺点,在实际应用中需要根据具体的问题需求、二叉树的特点以及性能和空间的限制等因素来选择合适的实现方式。
408 59
|
11月前
|
编译器 C语言 C++
栈区的非法访问导致的死循环(x64)
这段内容主要分析了一段C语言代码在VS2022中形成死循环的原因,涉及栈区内存布局和数组越界问题。代码中`arr[15]`越界访问,修改了变量`i`的值,导致`for`循环条件始终为真,形成死循环。原因是VS2022栈区从低地址到高地址分配内存,`arr`数组与`i`相邻,`arr[15]`恰好覆盖`i`的地址。而在VS2019中,栈区先分配高地址再分配低地址,因此相同代码表现不同。这说明编译器对栈区内存分配顺序的实现差异会导致程序行为不一致,需避免数组越界以确保代码健壮性。
235 0
栈区的非法访问导致的死循环(x64)
|
存储 C语言 C++
【C++数据结构——栈与队列】顺序栈的基本运算(头歌实践教学平台习题)【合集】
本关任务:编写一个程序实现顺序栈的基本运算。开始你的任务吧,祝你成功!​ 相关知识 初始化栈 销毁栈 判断栈是否为空 进栈 出栈 取栈顶元素 1.初始化栈 概念:初始化栈是为栈的使用做准备,包括分配内存空间(如果是动态分配)和设置栈的初始状态。栈有顺序栈和链式栈两种常见形式。对于顺序栈,通常需要定义一个数组来存储栈元素,并设置一个变量来记录栈顶位置;对于链式栈,需要定义节点结构,包含数据域和指针域,同时初始化栈顶指针。 示例(顺序栈): 以下是一个简单的顺序栈初始化示例,假设用C语言实现,栈中存储
983 77
|
11月前
232.用栈实现队列,225. 用队列实现栈
在232题中,通过两个栈(`stIn`和`stOut`)模拟队列的先入先出(FIFO)行为。`push`操作将元素压入`stIn`,`pop`和`peek`操作则通过将`stIn`的元素转移到`stOut`来实现队列的顺序访问。 225题则是利用单个队列(`que`)模拟栈的后入先出(LIFO)特性。通过多次调整队列头部元素的位置,确保弹出顺序符合栈的要求。`top`操作直接返回队列尾部元素,`empty`判断队列是否为空。 两题均仅使用基础数据结构操作,展示了栈与队列之间的转换逻辑。