在业务场景中经常需要统计,如某直播累计观看人数、独立访客人数、历史总观看人数等等,再比如要统计某学生某月的签到情况等,遇到统计的情况,就需要思考如何合理地选择 Redis 数据类型,这篇文章学习一下各种统计的业务场景和分类,这样就能很容易的对应各种统计需求了。
1.笔记图
2.Redis 聚合统计
2.1 场景
- 交集统计:统计多个集合的共有元素
- 差集统计:统计一个集合相比于另一个集合有车别的元素
- 并集统计:统计多个集合的所有元素
2.2 举例
- 记录所有登录过的用户ID:
- 记录某天所有登录过的用户ID:
- 记录某天新增的用户ID:如记录 1 月 4 日和 1 月 5 日所有用户 ID,求它们差集合就是新增用户,求差集命令:
SDIFFSTORE user_new user_id_20200804 user_id_20200803
Tips:表示将 user_id_20200804 集合和 user_id 集合求差集,并保存至 user_new 集合中,可表示 20200804 这个日期的新增用户数。
- 记录某天留存下的用户ID:如记录 1 月 4 日和 1 月 5 日所有用户 ID,然后求它们交集就是当日留存用户,求交集命令:
SINTERSTORE user_new user_id_20200804 user_id_20200803
Tips:表示将 user_id_20200804 集合和 user_id 集合求交集,并保存至 user_new 集合中,可表示 20200804 留存的用户数。
2.3 优化建议
- Set 的差集、并集和交集的计算复杂度较高,直接执行这些计算,会导致 Redis 实例阻塞
- 可以从主从集群中选择一个从库,让它专门负责聚合计算,或者是把数据读取到客户端,在客户端来完成聚合统计
3.排序统计举例
- 获取最新评论列表:按评论时间的先后给每条评论设置一个权重值,然后再把评论保存到 Sorted Set 中
ZRANGEBYSCORE comments N-9 N
4.二值状态
- 统计 ID 3000 的用户在 2020 年 8 月份的签到情况:
- 统计 ID 3000 的用户在 2020 年 8 月份的签到情况
SETBIT uid_sign_3000_202008 2 1
- 检查该用户 8 月 3 日是否签到
GETBIT uid_sign_3000_202008 2
- 统计该用户在 8 月份的签到次数
BITCOUNT uid_sign_3000_202008
- 如果记录了 1 亿个用户 10 天的签到情况,你有办法统计出这 10 天连续签到的用户总数吗?:
- 把每天的日期作为 key,每个 key 对应一个 1 亿位的 Bitmap,每一个 bit 对应一个用户当天的签到情况
- 对 10 个 Bitmap 做 与 操作,得到的结果也是一个 Bitmap
- BITCOUNT 统计下 Bitmap 中的 1 的个数,这就是连续签到 10 天的用户总数了
5.基数统计举例
- 统计某个网页一天的独立访客(UV):HyperLogLog
- PFCOUNT uv_20180808
- PFADD uv_20180808 user1 user2 user3 user4 user5
- 统计结果是有一定误差的,标准误算率是 0.81%,但是它非常节省空间
6.各个数据类型统计