索引优化深潜(下):索引合并、ICP 与索引设计的实战法则

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
云数据库 PolarDB MySQL 版,列存表分析加速 8核16GB
简介: 索引优化不止于单索引设计。本文深入讲解MySQL 5.6/8.0的高级索引特性:索引合并(Index Merge)的三种策略(交集、并集、排序并集)、索引条件下推(ICP)的工作原理和适用场景,以及如何使用MRR(多范围读取)优化随机I/O。通过真实案例演示如何利用这些特性提升查询性能,同时揭示索引合并可能带来的隐患。最后总结索引设计实战法则,帮助你从“能用索引”进阶到“用好索引”。

大家好,我是小耶,写功课只是为了我踩过的坑,你们别再踩了!

周三我们讲了InnoDB的索引结构、Cardinality和最左前缀原则。今天继续进阶,聊聊那些听起来有点高级的词:​索引合并(Index Merge)​、​索引条件下推(ICP)​、​多范围读取(MRR)​。这些特性在MySQL 5.6/8.0中已经成熟,但很多人只知道“有索引就能快”,却不知道优化器有时候会用多个索引来合并结果,也不知道ICP能让过滤提前到索引层。

理解这些,你就能解释为什么有时候明明有索引,执行计划里却出现了Using intersectUsing index condition,以及这到底是好是坏。

先从一个真实场景说起

有一次我优化一个慢查询,表上有两个单列索引:idx_shop_id(shop_id)idx_status(status)。查询条件是 WHERE shop_id = 123 AND status = 'PAID'。按理说,优化器应该只选一个索引,然后回表过滤另一个条件。但执行计划里却出现了 Extra: Using intersect(idx_shop_id, idx_status); Using where。这是什么情况?

打个比方:你去找一本“计算机类”且“2026年出版”的书。图书馆有两个卡片柜:一个按分类(计算机类),一个按年份(2026年)。传统做法是只查一个柜子(比如先找所有计算机类的书),然后一本本翻看年份。索引合并就是同时查两个柜子:先找出计算机类的书单,再找出2026年的书单,然后取交集,这样得到的结果更精确,回表次数更少。听起来很聪明,但真的总是最好的吗?不一定。下面我们详细拆解。


一、索引合并(Index Merge)

索引合并是优化器的一种策略:当WHERE条件包含多个列,且每个列都有独立的索引,优化器可能同时使用多个索引,然后将结果合并(交集、并集或排序并集),最后回表取数据。

1. 交集合并(Intersection)
适用于多个等值条件 AND 组合。优化器分别扫描每个索引,得到主键集合,然后取交集,最后回表。

例子​:

SELECT * FROM orders WHERE shop_id = 123 AND status = 'PAID';

如果两个列都有单列索引,执行计划可能出现 Using intersect(idx_shop_id, idx_status)

性能分析​:如果每个索引筛选出的主键集合都很大,交集后可能很小,回表次数少。但索引合并本身需要扫描两个索引并计算交集,代价不一定比使用一个复合索引低。​最佳方案仍然是创建复合索引 ​(shop_id, status)​,这样直接走一个索引,一次索引查找就能定位,不需要合并。

2. 并集合并(Union)
适用于多个等值条件 OR 组合。优化器分别扫描索引,得到主键集合,然后取并集。

例子​:

SELECT * FROM orders WHERE shop_id = 123 OR status = 'PAID';

如果两个列都有单列索引,可能出现 Using union(idx_shop_id, idx_status)

注意​:OR条件可能导致优化器放弃索引而全表扫描,因为并集太大。如果每个条件筛选出的比例都很高,全表扫描可能更快。

3. 排序并集合并(Sort-Union)
适用于范围条件(>, <, BETWEEN)的OR组合。优化器先分别扫描索引得到主键集合,排序后去重,再回表。

例子​:

SELECT * FROM orders WHERE shop_id > 1000 OR status = 'PAID';

索引合并的陷阱​:虽然索引合并是优化器的“智能”策略,但它往往暗示你的索引设计不够好。一个设计良好的复合索引通常比索引合并更高效,因为单次索引查找就能定位数据,避免了合并开销。当你看到执行计划中出现 Using intersect/union 时,可以检查是否能用复合索引替代。


二、索引条件下推(ICP)

ICP是MySQL 5.6引入的一个重要优化。它的名字听起来很玄,但原理其实很简单。

在没有ICP之前,存储引擎通过索引找到行后,会立即回表读取整行,然后再由Server层评估WHERE条件的剩余部分。这就像你要从图书馆找一本书,先根据卡片找到书架位置,然后把整本书拿出来(回表),再翻开书查看是否满足其他条件——如果书不对,还得放回去。

有了ICP,​存储引擎层可以在索引遍历过程中,直接评估部分WHERE条件​,过滤掉不满足的行,减少回表次数。相当于你在书架前就能看到书脊上的标签,判断是不是你要的书,不是就直接跳过,不用把书抽出来。

例子​:

SELECT * FROM user WHERE name LIKE '张%' AND age = 20;

假设有复合索引 (name, age)。没有ICP时:存储引擎用name匹配'张%'找到所有行,回表,再检查age=20。有ICP时:在索引层同时检查age=20,不满足的直接跳过,不回表。

执行计划标识​:Extra: Using index condition

适用条件​:

  • ICP只适用于二级索引。
  • 被下推的条件必须使用索引中的列。
  • 不能用于覆盖索引(因为覆盖索引不需要回表)。

什么时候ICP最有效​:当索引过滤后的结果集很大,但实际满足剩余条件的比例很低时,ICP能大幅减少回表I/O。


三、多范围读取(MRR)

MRR是另一种优化,主要用于减少随机I/O。可以理解为“先整理再取货”。

举个例子:你要去超市买十样东西,分布在不同的货架。如果不规划路线,你会来回跑(随机I/O)。如果你先把购物清单按货架顺序排好,然后一趟走完(顺序I/O),效率更高。MRR做的就是这件事。

在没有MRR时,存储引擎按索引顺序找到主键后,立即回表(随机I/O)。有了MRR,存储引擎​先把要回表的主键收集到缓冲区,排序后再批量回表​,把随机I/O转换为顺序I/O。

执行计划标识​:Extra: Using MRR

适用场景​:范围查询或索引合并后需要大量回表。排序后回表能显著提升机械硬盘或普通SSD下的性能。但在高端NVMe SSD上,随机I/O和顺序I/O差距已缩小,MRR收益不明显。


四、高级索引特性的实战案例

案例1:索引合并换复合索引

原SQL:

SELECT * FROM orders WHERE shop_id = 10086 AND status = 'PAID';

原索引:两个单列索引 idx_shop_ididx_status
执行计划:Using intersect(idx_shop_id, idx_status); Using where,扫描两个索引取交集,回表1200行,耗时0.3秒。

优化:创建复合索引 (shop_id, status)
新执行计划:ref 模式,单次索引查找,扫描200行,耗时0.05秒。

教训​:索引合并不是银弹,复合索引通常更优。

案例2:ICP大幅减少回表

原SQL:

SELECT * FROM user WHERE name LIKE '张%' AND age = 20;

索引:(name, age)。没有ICP时,扫描所有姓“张”的行(假设5000行),回表5000次,耗时1.2秒。启用ICP后,在索引层同时过滤age=20,假设只有500行满足,回表500次,耗时0.2秒。

如何确认ICP是否生效​:查看 EXPLAINExtra 列是否包含 Using index condition。如果包含,说明ICP已启用(MySQL 5.6+默认开启)。


五、索引设计的实战法则汇总

结合上期和本期内容,总结索引设计的关键原则:

  1. 优先使用复合索引而非多个单列索引​,避免优化器走索引合并。
  2. 按照“等值在前,范围在后,高基数优先”设计复合索引顺序​。
  3. 利用覆盖索引避免回表​,减少I/O。
  4. 关注执行计划中的 ​Extra ​列​:
    • Using index:覆盖索引,好。
    • Using index condition:ICP生效,较好。
    • Using intersect/union:索引合并,可能暗示复合索引更优。
    • Using MRR:多范围读取,对大量回表有帮助。
  5. 定期使用 ​ANALYZE TABLE ​更新统计信息​,让优化器准确评估基数。
  6. 对于高频查询,可以强制使用索引​(USE INDEX)验证优化器选择,但不建议长期依赖。

索引优化不是一蹴而就的事,而是持续观察、验证、调整的过程。理解索引合并、ICP、MRR这些高级特性,能帮助你读懂执行计划里那些“奇怪”的标记,判断优化器做的决策是否合理,甚至主动引导它做出更好的选择。当你下次看到 Using intersect 时,不再疑惑“这到底好还是不好”,而是能马上判断:这里应该改成复合索引。这就是从“背口诀”到“懂原理”的质变。

小耶在手,SQL 不愁

还有什么想了解的,欢迎留言!小耶一定知无不言言无不尽……我们下次见~

相关文章
|
20天前
|
人工智能 前端开发 数据挖掘
全链路实战:依托Codex完成PPT、数据分析、网页与APP一站式AI开发教程
在AI技术飞速迭代的当下,代码生成早已不是AI工具的单一能力边界。OpenAI旗下的Codex经过持续升级,如今已经成长为一款综合性智能生产力平台,除了经典的代码编写能力外,还支持插件调用、电脑远程操控、数据分析、多媒体制作、全品类应用开发等多元功能。本文将结合完整实操流程,一步步演示如何使用Codex完成PPT制作、体育赛事数据分析预测、网页开发以及移动端APP开发四大核心场景,全程记录操作指令、执行过程、代码实现以及问题优化方案,直观展现AI如何重塑传统工作与开发流程,同时剖析这套全链路AI工作模式的优势与现存局限。整套流程无需深厚的专业功底,普通办公人员、初级开发者都可以参考落地。
401 1
|
JSON 自然语言处理 Java
【AgentScope Java新手村系列】(4)结构化输出
结构化输出 — JSON Schema 约束 LLM 输出格式,直接反序列化为 Java POJO,打通文本到对象的转换。
203 0
|
20天前
|
人工智能 缓存 监控
构建企业级 AI Agent 工程化实践:从原型到生产环境的跨越
本文深入探讨企业级AI Agent从原型到生产的工程化实践,直面LLM概率性与业务确定性的根本矛盾,提出“LLM负责感知推理、代码保障逻辑执行”的混合架构。系统阐述可观测性、安全护栏、性能优化、数据管理四大工程支柱,并结合IT运维、金融合规等实战场景,提供可落地的LLMOps方法论。
|
19天前
|
SQL 人工智能 自然语言处理
Vibe Coding 是什么?当“感觉编程”遇上数据库
Vibe Coding是2026年编程圈最火的概念之一,指开发者通过自然语言描述“感觉”或“意图”,由AI自动生成代码、调试、优化。本文从Vibe Coding的起源讲起,分析它如何改变数据库开发方式:从手写SQL到自然语言查询、从人工调索引到AI推荐、从经验运维到智能诊断。探讨这项趋势对DBA职业的影响,并给出拥抱变化的实用建议。技术会变,但人的判断力、审美和业务理解才是长期竞争力。
|
20天前
|
数据采集 人工智能 编解码
YOLO不是“魔法”,是你自己也能跑通的一条工程流水线:Python从标注到训练全实战
YOLO不是“魔法”,是你自己也能跑通的一条工程流水线:Python从标注到训练全实战
247 2
YOLO不是“魔法”,是你自己也能跑通的一条工程流水线:Python从标注到训练全实战
|
20天前
|
人工智能 缓存 JavaScript
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
本文系统梳理2026年构建AI Agent的7层开源工具栈,围绕四大核心约束——延迟预算、审计追踪、模型可移植性与语言栈(Python/TS),对比LangGraph、CrewAI、Mem0、Zep、OpenHands、Langfuse、vLLM等主流方案的适用场景、替换成本及开源性质,助力团队按需选型,避免“一刀切”组合陷阱。
249 1
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
|
20天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
8天前
|
SQL 关系型数据库 MySQL
执行计划进阶:读懂统计信息与基数估算,理解优化器的“思考方式”
执行计划是SQL优化的核心工具,但很多人只关注type和Extra,忽略了执行计划背后的决策依据——统计信息与基数估算。本文从优化器的决策逻辑出发,解释统计信息如何影响基数估算、基数估算如何决定执行计划的选择。通过真实案例展示统计信息过旧如何导致优化器“选错路”,以及如何通过更新统计信息、使用扩展统计等方法来纠正。帮助读者从“看懂执行计划”进阶到“理解优化器为什么这么选”。
|
20天前
|
人工智能 监控 Java
变天了!不会 Agent,技术岗竞争力正在被拉开
招聘趋势突变:AI Agent、RAG、工作流编排等词频现技术岗JD。这标志着企业需求从“会写代码”转向“会用AI落地业务”——测试开发尤需关注,因需求分析、用例生成、日志诊断等高重复、强流程场景,正成为Agent最佳实践入口。
|
20天前
|
存储 人工智能 自然语言处理
Skills实战:从0到1封装一个“登录鉴权”Skill,拿来即用
本文直击AI Agent落地痛点——登录鉴权失效、状态丢失、提示词不可靠。提出以“Skill”替代传统提示词工程:将动态认证逻辑(如Token获取/刷新/存储)封装为可复用、带状态管理的代码模块,实现跨会话稳定调用。实战拆解Skill四要素,揭示其如何让AI“一次登录,全程无忧”。