COUNT进阶(续):超大表去重计数的极致优化

本文涉及的产品
PolarDB Agent Express,2核4GB
PolarDB Agent Flow,2核4GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 本篇详解COUNT(DISTINCT)性能瓶颈与四大优化方案:① HyperLogLog(误差1–2%,极速);② 索引+GROUP BY加速精确统计;③ Bitmap(低基数场景);④ 预计算/物化视图。按精度、实时性、成本选型,告别半小时卡死!

大家好,我是小耶,写功课只是为了我踩过的坑,你们别再踩了!

上周我们讲了COUNT(*)在大表上的近似计数与HyperLogLog。这周继续聊COUNT的进阶话题——​去重计数​。你一定遇到过这样的需求:“查一下昨天的独立访客数”“统计这周活跃设备量”,直接用COUNT(DISTINCT user_id),10亿行表跑了半小时还没出结果,怎么办?

去重计数的两种场景

场景 需求 可接受误差
运营报表、趋势图 DAU、MAU 1-2%
财务、库存、对账 精确金额、订单数 0%

不同场景对精度的要求完全不同。下面的优化手段,按误差从大到小排列。


方案一:近似去重(HyperLogLog)—— 要快,能接受1-2%误差

HyperLogLog是一种概率算法,用固定内存(约16KB)估算去重元素数量。原理:将每个元素哈希,统计哈希值二进制表示中前导零的最大长度,通过这个信息推断去重总数。

适用场景: UV、DAU、独立IP、搜索词去重统计等。

实现方式:

  1. Redis HyperLogLog​(最常用)
import redis
r = redis.Redis()
for user_id in logs:
    r.pfadd("daily_uv:2026-06-02", user_id)
uv = r.pfcount("daily_uv:2026-06-02")  # 误差1%以内
  1. PostgreSQL + hll扩展
CREATE EXTENSION hll;
SELECT hll_cardinality(hll_add_agg(hll_hash_integer(user_id))) FROM logs;

方案二:精确去重,但用索引优化 —— 要准,也要尽量快

如果必须精确,可以通过索引设计减少扫描量。

技巧1:覆盖索引

COUNT(DISTINCT user_id) 只需要user_id列,如果(user_id)上有索引,InnoDB可以直接扫描索引而不是全表,大大减少I/O。

-- 确保user_id有索引
CREATE INDEX idx_user_id ON logs(user_id);
SELECT COUNT(DISTINCT user_id) FROM logs;

技巧2:使用GROUP BY代替DISTINCT

在某些数据库中,GROUP BY + 外层COUNT有时比COUNT(DISTINCT)更快(取决于优化器):

SELECT COUNT(*) FROM (SELECT user_id FROM logs GROUP BY user_id) t;

实测对比(1000万行,user_id有索引):

写法 耗时
COUNT(DISTINCT user_id) 12秒
GROUP BY子查询 11秒(差异不大)

技巧3:分桶计数

如果数据分布均匀,可以按某个维度分桶,分别计数后求和。例如按日期分区,每天分别COUNT(DISTINCT)再累加(需要保证桶间无重复)。


方案三:bitmap聚合 —— 极速精确去重(限低基数场景)

如果去重的列基数很低(比如只有几个值:性别、状态、类型),可以使用bitmap。每个值对应一个bit位,多个值做OR/AND操作极快。

实现方式: 使用PostgreSQL的bitmap扩展,或MySQL的SET类型。

适用场景: 标签系统、权限判断、漏斗分析中的“是否完成某动作”。


方案四:预计算/物化视图 —— 以空间换时间

对于固定维度的去重统计(如每日DAU),可以提前计算并存储结果,查询时直接读取。

实现方式:

  • 每日定时任务计算前一天的COUNT(DISTINCT user_id)存入统计表
  • 使用物化视图(PostgreSQL支持,MySQL需借助第三方工具)
方案 实时性 存储成本 适用场景
实时COUNT(DISTINCT) 实时 小表或低频查询
HyperLogLog 实时 极低 可接受误差的高频查询
预计算表 非实时(T+1) 固定报表、趋势图
物化视图 准实时(可刷新) 综合报表

优化决策树
deepseek_mermaid_20260603_1d174b.png


真实案例:某APP日活统计

  • 数据量:每日约5000万独立设备ID
  • 要求:实时展示当天DAU(可接受1%误差)
  • 方案:使用Redis HyperLogLog,每条日志pfadd,实时pfcount
  • 结果:内存占用约12KB/天,响应时间<10ms,误差<1.5%

如果要求精确,则采用T+1预计算:凌晨计算前一天的精确COUNT(DISTINCT device_id)存入MySQL,白天查询直接读结果。


总结

去重计数的优化没有“银弹”,关键在于根据业务对精度、实时性、成本的要求做出合理选择。HyperLogLog是误差容忍场景的利器,bitmap适合低基数,预计算适合固定报表。掌握了这些方案,你就能在“快”和“准”之间找到最佳平衡点。

小耶在手,SQL 不愁

还有什么想了解的,欢迎留言!小耶一定知无不言言无不尽……我们下次见~

相关文章
|
15天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
5716 29
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
10天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1163 2
|
7天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
924 1
|
17天前
|
人工智能 自然语言处理 供应链
|
7天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
702 3
|
23天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3825 15
|
8天前
|
运维
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
1419 0