场景引入
假设小马自己的个人站(当然只是假设)日PV突破上亿,小马开心极了,想统计一下每天的总PV数或者说统计当前在线用户数,怎么办呢?呃,记录到DB然后count总数。啊,果然简单粗暴,但这可是每日上亿的数据啊。那有没什么其他高效的办法呢?这就是Redis HyperLogLog登场的好时机。
什么是Redis HyperLogLog
首先理解一些概念,什么是基数,基数集,基数估计?比如数据集{1,2,3,4,5,6,3,4,6},那么这个数据集的基数集(不重复的元素集)为 {1,2,3,4,5,6},基数(不重复元素个数)为6。 基数估计/基数估值就是在误差可接受的范围内,快速计算基数。为什么这里要叫做“估”呢,因为是有误差的,一般是超过一百个就开始不准确了。
Redis HyperLogLog是用来做基数统计的算法,HyperLogLog的优点是,在输入元素的数量或者体积非常非常大时,计算出基数所需的空间总是固定的、并且是很小的。在Redis里面,每个HyperLogLog键只需要花费12KB内存,就可以计算接近2^64 个不同元素的基数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。
啥意思呢?通俗地理解就是HyperLogLog结构能用于计算基数,并且数据很大的情况下,所需的空间很小,并且不会随着数据不断增多而增大。这简直是很“哇塞”。
但是,因为HyperLogLog 只会根据输入元素来计算基数,而不会储存输入元素本身,所以HyperLogLog不能像集合那样,返回输入的各个元素。
这句话又是啥意思呢?它摊牌了,但是我只管统计,不会记录各个基数的值也不会告诉你这些基数集值是多少。说到底,它只是单一解决了统计计算的问题不解决存储输出问题。
Redis HyperLogLog怎么使用
HyperLogLog一共就三个基本命令:
PFADD 添加指定元素到HyperLogLog中。影响基数估值则返回1否则返回0,若key不存在则创建,时间复杂度O(1);
PFCOUNT 返回给定HyperLogLog的基数估算值,可一次统计多个key,时间复杂度为O(N),N为key的个数,返回值是一个带有 0.81% 标准错误(standard error)的近似值;
PFMERGE 将多个HyperLogLog合并为一个HyperLogLog。取多个key的并集,命令只会返回OK,时间复杂度为O(N),N为key的个数。
大概使用流程就是,先往HyperLogLog中添加元素,然后使用PFCOUNT计算出HyperLogLog的基数估算值。嗯,就是这么得简单好理解。来参考一个例子。
使用场景思考
我们注意到,PFADD命令执行时影响基数估值则返回1否则返回0,其实不就是已经有重复值返回0没有则返回1。啊,这里是不是可以用来作去重的判断,不过注意的是这个命令是增量的,判断一次后就会add了影响下次去重判断。所以直接用于去重判断并不是很合理。也就是它其实是没有contains操作的,要查询就得考虑搞布隆过滤器呢。总结为两者都有去重功能,都存在误差,但HyperLogLog着重统计,布隆过滤器着重查询过滤。
没关系,我们可以用它来统计IP数,每日PV,实时UV,实时在线用户数,等等不关注实际内容输出但需要去重统计大量数据的场景。话又说回来,如果数据量不大,比如几千,那就有点多此一举的感觉了。就此搁笔吧,欢迎品阅指点。