如何巧用索引优化SQL语句性能?

简介: 本文从索引角度探讨了如何优化MySQL中的SQL语句性能。首先介绍了如何通过查看执行时间和执行计划定位慢SQL,并详细解析了EXPLAIN命令的各个字段含义。接着讲解了索引优化的关键点,包括聚簇索引、索引覆盖、联合索引及最左前缀原则等。最后,通过具体示例展示了索引如何提升查询速度,并提供了三层B+树的存储容量计算方法。通过这些技巧,可以帮助开发者有效提升数据库查询效率。

你好,我是猿java。

为什么在 MySQL数据库中,一条慢查询只要添加上合适的索引,查询速度就能提升一个档次?对于 MySQL,如何巧用索引优化SQL语句性能?需要注意什么问题?

解决问题之前最重要且最难的事情是定位问题,因此,我们需要先定位出慢 SQL,这样才能对症下药进行优化,那么,如何定位慢 SQL呢?

如何判断慢 SQL?

判断慢 SQL的方法有很多种,这里介绍最常用的两种方式:查看执行时间 和 查看执行计划。

查看执行计划

日常开发中,我们一般会使用“EXPLAIN”命令来查看 SQL语句的执行计划,从而判断 SQL是否存在慢SQL的风向,能否投入生产。

为了更好的解释“EXPLAIN”命令,我们通过一个真实示例来演示,场景:根据 name字段从拥有百万条数据的 user表中来查询记录,EXPLAIN执行计划如下图:

index-optimize-count.png

EXPLAIN输出的每个字段解释:

  • id: 标识查询中每个SELECT子句的顺序。通常,id值越大表示优先级越高,越先被执行。
  • select_type: 描述查询的类型。常见值包括:
    • SIMPLE:简单SELECT查询,不包含子查询或UNION。
    • PRIMARY:最外层的SELECT。
    • UNION:UNION中的第二个或后续的SELECT语句
    • DEPENDENT UNION:UNION中的第二个或后续的SELECT语句,取决于外部查询
    • SUBQUERY:子查询中的第一个SELECT
    • DEPENDENT SUBQUERY:子查询中的第一个SELECT,取决于外部查询
  • table: 查询涉及的表名
  • partitions: 显示查询访问的分区(如果表是分区表)
  • type: 连接类型,表示查询使用的访问方法。常见类型从好到差依次为:

    • system:表仅有一行(系统表)
    • const:表最多有一个匹配行(常量表)
    • eq_ref:对于每个来自前一个表的行,最多有一个匹配行
    • ref:对于每个来自前一个表的行,有多个匹配行
    • range:使用索引范围扫描
    • index:全索引扫描
    • ALL:全表扫描
  • possible_keys: 查询中可能使用的索引列表
  • key: 实际使用的索引。如果没有使用索引,则显示 NULL
  • key_len: 使用的索引的长度(字节数)
  • ref: 显示索引的哪一列被使用了,如果可能的话,是一个常量
  • rows: 估计需要读取的行数。这是一个估算值,越小越好
  • filtered: 表示返回的行的百分比。该值是一个估算值,表示在应用表条件后,返回的行数占读取行数的百分比
    Extra: 其他的额外信息。常见的值包括:
    • Using index:只使用索引覆盖扫描(覆盖索引),不需要访问表数据
    • Using where:使用了 WHERE子句进行过滤
    • Using temporary:使用临时表保存中间结果
    • Using filesort:使用文件排序,通常意味着需要优化

上述示例截图中执行计划的结果分析如下:

  • id:1,表示这是最外层的查询
  • select_type:SIMPLE,表示这是一个简单查询
  • table:user,表示查询的表是 user表
  • partitions:NULL,表示没有使用分区
  • type:ALL,表示进行了全表扫描
  • possible_keys:NULL,表示没有使用索引
  • key:NULL,表示没有使用索引
  • key_len:NULL,表示没有使用索引,所以索引长度为NULL
  • ref:NULL,表示索引列与常量进行比较。
  • rows:1,表示预计读取 936000行数据
  • filtered:10.00,表示在扫描了user表的所有行之后,只有大约 10%的行满足查询条件并被返回
  • Extra:Using where,表示使用了WHERE子句进行过滤

通过示例分析可以知道:该查询进行了全表扫描且未使用任何索引,实际耗时是 240毫秒。因此,我们可以判断这条 SQL为慢 SQL(耗时大于 100ms),可以考虑给name创建一个索引来优化:

给 name字段增加一个“index-name”索引,信息如下:
index-optimize-count-2.png

从执行计划可以看出:查询使用了“index_name”索引,实际查询的行数是 1,执行时间从 240ms 降低到 10ms,速度提升了 24倍。

查看执行时间

对于已经投入生产使用的 SQL查询语句,我们一般会通过查看 SQL执行日志,通过 SQL执行时间来判断是否存在慢 SQL,在 MySQL中,可以使用下面的指令来开启慢查询日志和设置慢SQL时间阈值:

SET GLOBAL slow_query_log = 'ON'; -- 开启慢 SQL日志
SET GLOBAL long_query_time = 0.1; -- 设置慢查询阈值为 100毫秒

然后查看日志目录,指令如下:

SHOW VARIABLES LIKE 'slow_query_log_file';

index-optimize-time.png

索引优化

在使用索引的时候,需要注意的一些事项和使用技巧:

聚簇索引

首先需要判断 MySQL的引擎是不是 Innodb,它采用的聚簇索引(主键索引),B+树的非叶子节点(内部节点)存放的是索引值和指向子节点的指针,叶子节点上存放的是索引值和数据。

非聚簇索引,B+树的非叶子节点存储索引值和指向子节点的指针,叶子节点存放的是索引值和聚簇索引值。因此非聚簇索引需要先遍历非聚簇索引B+树定位到聚簇索引的值,再到聚簇索引上回表获取数据。
聚簇索引的优点:可以避免每棵索引树上都存放数据,使得在相同的内存空间下存放的更多的索引节点,减少磁盘IO。

聚簇索引示意图如下:

11.png

非聚簇索引示意图如下:

12.png

聚簇索引和非聚簇索引

聚簇索引:将数据存储与索引放到了一块,找到索引也就找到了数据。

索引覆盖

在当前索引树上能直接查找所需结果,不需要回表,这就是索引覆盖。

比如上面的案例:
select id from user where age = 30 and sex = '男';
因为id已经在当前索引的叶子节点,所以不需要到聚簇索引上回表,因此这就是一个索引覆盖的场景。由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。

联合索引

联合索引是指将表中多个字段联合组合成一个索引,比如:index(age, sex)

那么联合索引是如何用B+树实现的呢?

场景:查询用户表中年龄为30岁的男性
表结构:

mysql> create table user(
id int primary key,
name varchar(16),
age int not null,
sex varchar(4) not null,
index(age, sex)) engine=InnoDB;

联合索引在 B+树索引模型示意图如下:

13.png

查询分析:

首先,从根节点根据组合索引里面的所有字段进行精确匹配查到到age=30 and sex='男'的记录有两条;

然后,获取id2和id3两个节点中指向子节点的指针,定位到子节点,再定位到叶子节点,从叶子节点中拿到聚簇索引的值 id2和id3;

最后,到聚簇索引上遍历id2和id3,直到叶子节点上获取目标数据;

最左前缀原则

在日常的工作中,我们发现 查询条件比较多,比如上面的用户表,有根据age和sex查询,有根据name和age查询,也有根据name和sex查询,各种查询组合,那是不是都要为它们创建一个索引呢?
答案是不一定。B+树 可以利用索引的“最左前缀”来定位记录。
最左前缀可以是联合索引的最左 N 个字段,也可以是字符串索引的最左 M 个字符

比如:联合索引index(a, b, c)
查询条件 where a = ?
where a = ? and b = ?
where a = ? and b = ? and c = ?
where 条件中的字段都可以匹配索引,但是 where a = ?and c = ?   where条件中的a,c只有a 可以匹配 联合索引的a字段。

示例:
场景:查询用户表中姓刘的男性
联合索引:index(name, sex)
B+树索引模型示意图如下:

14.png

查询分析:

首先,从根节点查到第一个'刘'开头的记录是id2,然后向后遍历,直到不满足条件为止,最后结果id2,id3两条;

然后,获取指向子节点的指针,定位到子节点,一直到叶子节点,接着比较第2个字段 sex='男',定位到 id2;

最后,根据id2到聚簇索引上遍历,直到叶子节点上获取目标数据;
从上面的查询分析可以看到:索引前缀原则,查询条件 name like '刘%' and sex = '男',只用到了联合索引中的name字段,那么set条件没有用到索引会怎么处理呢?  这个就是MySQL5.6引入的索引下推机制,name字段定位了一批数据减少了全表扫描,在符合name like '刘%'的数据集中再筛选sex='男',这样减少了回表的次数,降低了磁盘IO。

问题3:一个三层的B+树可以存放多少行数据呢?

在Innodb存储引擎里面,最小的存储单元是页(page),一个页的大小是16KB,
也就是一个节点的大小。根据上文,非叶子节点保存的是索引值和指针,
假设索引id是long类型,占8个byte,指针占6 byte, 所以,
根节点可以存放 16KB / (8 + 6) = 1170 个索引值,因此就有1170个指针,
假设一条数据的大小是1K,因此叶子节点可以存放 16Kb/1K = 16条数据,
所以3层的B+树可以存放 1170 * 1170 * 16 = 21902400行记录

总结

本文从索引角度来分析如何优化SQL语句性能,主要是思路是:

  • 先确认慢SQL,可从SQL执行日志,也可以通过 EXPLAIN执行计划
  • 通过 EXPLAIN执行计划来确认是否为慢SQL,以及该给哪些字段增加索引
  • 最后,在使用索引时,我们提供了一些注意点以及使用技巧

学习交流

如果你觉得文章有帮助,请帮忙转发给更多的好友,或关注:猿java,持续输出硬核文章。

目录
相关文章
|
23天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
15天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
20天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2570 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
17天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
3天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
2天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
159 2
|
19天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1568 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
21天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
939 14
|
3天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
183 2
|
16天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
706 12