Redis城会玩之HyperLogLog基数统计

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 我们前面介绍了Redis这个万金油,然后事情还没有完。Redis不仅能布隆过滤器还能做基数统计。好了,小马又要开始探讨一方了。

场景引入

假设小马自己的个人站(当然只是假设)日PV突破上亿,小马开心极了,想统计一下每天的总PV数或者说统计当前在线用户数,怎么办呢?呃,记录到DB然后count总数。啊,果然简单粗暴,但这可是每日上亿的数据啊。那有没什么其他高效的办法呢?这就是Redis HyperLogLog登场的好时机。

什么是Redis HyperLogLog

首先理解一些概念,什么是基数,基数集,基数估计?比如数据集{1,2,3,4,5,6,3,4,6},那么这个数据集的基数集(不重复的元素集)为 {1,2,3,4,5,6},基数(不重复元素个数)为6。 基数估计/基数估值就是在误差可接受的范围内,快速计算基数。为什么这里要叫做“估”呢,因为是有误差的,一般是超过一百个就开始不准确了。

Redis HyperLogLog是用来做基数统计的算法,HyperLogLog的优点是,在输入元素的数量或者体积非常非常大时,计算出基数所需的空间总是固定的、并且是很小的。在Redis里面,每个HyperLogLog键只需要花费12KB内存,就可以计算接近2^64 个不同元素的基数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。

啥意思呢?通俗地理解就是HyperLogLog结构能用于计算基数,并且数据很大的情况下,所需的空间很小,并且不会随着数据不断增多而增大。这简直是很“哇塞”。

但是,因为HyperLogLog 只会根据输入元素来计算基数,而不会储存输入元素本身,所以HyperLogLog不能像集合那样,返回输入的各个元素。

这句话又是啥意思呢?它摊牌了,但是我只管统计,不会记录各个基数的值也不会告诉你这些基数集值是多少。说到底,它只是单一解决了统计计算的问题不解决存储输出问题。

Redis HyperLogLog怎么使用

HyperLogLog一共就三个基本命令:

PFADD 添加指定元素到HyperLogLog中。影响基数估值则返回1否则返回0,若key不存在则创建,时间复杂度O(1);

PFCOUNT 返回给定HyperLogLog的基数估算值,可一次统计多个key,时间复杂度为O(N),N为key的个数,返回值是一个带有 0.81% 标准错误(standard error)的近似值;

PFMERGE 将多个HyperLogLog合并为一个HyperLogLog。取多个key的并集,命令只会返回OK,时间复杂度为O(N),N为key的个数。

大概使用流程就是,先往HyperLogLog中添加元素,然后使用PFCOUNT计算出HyperLogLog的基数估算值。嗯,就是这么得简单好理解。来参考一个例子。

image.png

使用场景思考

我们注意到,PFADD命令执行时影响基数估值则返回1否则返回0,其实不就是已经有重复值返回0没有则返回1。啊,这里是不是可以用来作去重的判断,不过注意的是这个命令是增量的,判断一次后就会add了影响下次去重判断。所以直接用于去重判断并不是很合理。也就是它其实是没有contains操作的,要查询就得考虑搞布隆过滤器呢。总结为两者都有去重功能,都存在误差,但HyperLogLog着重统计,布隆过滤器着重查询过滤。

没关系,我们可以用它来统计IP数,每日PV,实时UV,实时在线用户数,等等不关注实际内容输出但需要去重统计大量数据的场景。话又说回来,如果数据量不大,比如几千,那就有点多此一举的感觉了。就此搁笔吧,欢迎品阅指点。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3月前
|
存储 NoSQL Java
Redis助力高并发网站:在线用户统计不再是难题!
小米带你了解如何使用Redis高效统计网站的在线与并发用户数。通过维护用户的活跃时间,利用Redis有序集合(Sorted Set)特性,可实时更新在线用户列表并统计数量。具体实现包括记录用户上线时间、定期清理离线用户及统计特定时间窗口内的活跃用户数。这种方法适用于高并发场景,保证统计结果的实时性和准确性。跟着小米一起探索Redis的强大功能吧!
94 2
|
6天前
|
NoSQL Java API
springboot项目Redis统计在线用户
通过本文的介绍,您可以在Spring Boot项目中使用Redis实现在线用户统计。通过合理配置Redis和实现用户登录、注销及统计逻辑,您可以高效地管理在线用户。希望本文的详细解释和代码示例能帮助您在实际项目中成功应用这一技术。
15 3
|
25天前
|
NoSQL 算法 关系型数据库
Redis HyperLogLog
10月更文挑战第17天
16 2
|
3月前
|
存储 监控 NoSQL
redis数据结构-HyperLogLog
redis数据结构-HyperLogLog
42 1
|
3月前
|
NoSQL Java Redis
Redis字符串数据类型之INCR命令,通常用于统计网站访问量,文章访问量,实现分布式锁
这篇文章详细解释了Redis的INCR命令,它用于将键的值增加1,通常用于统计网站访问量、文章访问量,以及实现分布式锁,同时提供了Java代码示例和分布式锁的实现思路。
117 0
|
4月前
|
存储 NoSQL 算法
Redis中 HyperLogLog数据类型使用总结
Redis中 HyperLogLog数据类型使用总结
23 0
|
4月前
|
NoSQL Redis
Redis 使用 hyperLogLog 实现请求ip去重的浏览量
Redis 使用 hyperLogLog 实现请求ip去重的浏览量
39 0
|
1月前
|
消息中间件 缓存 NoSQL
Redis 是一个高性能的键值对存储系统,常用于缓存、消息队列和会话管理等场景。
【10月更文挑战第4天】Redis 是一个高性能的键值对存储系统,常用于缓存、消息队列和会话管理等场景。随着数据增长,有时需要将 Redis 数据导出以进行分析、备份或迁移。本文详细介绍几种导出方法:1)使用 Redis 命令与重定向;2)利用 Redis 的 RDB 和 AOF 持久化功能;3)借助第三方工具如 `redis-dump`。每种方法均附有示例代码,帮助你轻松完成数据导出任务。无论数据量大小,总有一款适合你。
74 6
|
6天前
|
缓存 NoSQL 关系型数据库
大厂面试高频:如何解决Redis缓存雪崩、缓存穿透、缓存并发等5大难题
本文详解缓存雪崩、缓存穿透、缓存并发及缓存预热等问题,提供高可用解决方案,帮助你在大厂面试和实际工作中应对这些常见并发场景。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:如何解决Redis缓存雪崩、缓存穿透、缓存并发等5大难题
|
7天前
|
存储 缓存 NoSQL
【赵渝强老师】基于Redis的旁路缓存架构
本文介绍了引入缓存后的系统架构,通过缓存可以提升访问性能、降低网络拥堵、减轻服务负载和增强可扩展性。文中提供了相关图片和视频讲解,并讨论了数据库读写分离、分库分表等方法来减轻数据库压力。同时,文章也指出了缓存可能带来的复杂度增加、成本提高和数据一致性问题。
【赵渝强老师】基于Redis的旁路缓存架构