《MySQL高级篇》八、索引优化与查询优化(三)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用版 2核4GB 50GB
简介: 《MySQL高级篇》八、索引优化与查询优化

5. 排序优化

5.1 排序优化

问题:在 WHERE 条件字段上加索引,但是为什么在 ORDER BY 字段上还要加索引呢?


在 MySQL 中,支持两种排序方式,分别是 FileSort 和 Index 排序。


Index 排序中,索引可以保证数据的有序性,就不需要再进行排序,效率更更高。

FileSort 排序则一般在 内存中 进行排序,占用 CPU 较多。如果待排序的结果较大,会产生临时文件 I/O 到磁盘进行排序的情况,效率低。

优化建议:


SQL 中,可以在 WHERE 子句和 ORDER BY 子句中使用索引,目的是在 WHERE 子句中 避免全表扫描,在 ORDER BY 子句 避免使用 FileSort 排序。当然,某些情况下全表扫描,或者 FileSort 排序不一定比索引慢。但总的来说,我们还是要避免,以提高查询效率。

尽量使用 Index 完成 ORDER BY 排序。如果 WHERE 和 ORDER BY 后面是相同的列就使用单索引列;如果不同就使用联合索引。

无法使用 Index 时,需要对 FileSort 方式进行调优。


5.2 测试


执先案例前,调用存储过程删除student和class表上的索引。只留主键:

call proc_drop_index('atguigudb2','student');
call proc_drop_index('atguigudb2','class');

以下是否能使用索引,能否去掉 using filesort

过程一:

EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid;

e64a8330d52f6e7d9084b6b937435a85.png

EXPLAIN SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid LIMIT 10;

e0361726ea4c20a897a0f9c0408a3d4b.png


过程二:


1. 创建索引,但是不加limit限制,索引失效


CREATE  INDEX idx_age_classid_name ON student (age,classid,NAME);
#不限制,索引失效
EXPLAIN  SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid; 

06baa836c203795f1b1c097033f6a338.png

我们不是建立了索引嘛,为啥显示没有使用呢?这是优化器通过计算发现,这里需要回表的数据量特别大,使用索引的性能代价反而比不上不用索引的。

2. 假如我们最后只查询二级索引中有的字段,观察结果:

# 会使用索引 (覆盖索引)
EXPLAIN  SELECT SQL_NO_CACHE age,classid,name,id FROM student ORDER BY age,classid;  

6962f2bd11403dc22d20586d92ff48a2.png

3. 假如我们限制排序返回的结果数量,观察结果:

#增加limit过滤条件,使用上索引了。
EXPLAIN  SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid LIMIT 10;

a0a386dc1b1fa4724ae113b781d4e3ec.png

过程三:order by 时顺序错误,索引失效

#创建索引age,classid,stuno
CREATE  INDEX idx_age_classid_stuno ON student (age,classid,stuno); 
#以下哪些索引失效?
# 失效
EXPLAIN  SELECT * FROM student ORDER BY classid LIMIT 10;
# 失效
EXPLAIN  SELECT * FROM student ORDER BY classid,NAME LIMIT 10;  
# 可以
EXPLAIN  SELECT * FROM student ORDER BY age,classid,stuno LIMIT 10; 
# 可以
EXPLAIN  SELECT * FROM student ORDER BY age,classid LIMIT 10;
# 可以
EXPLAIN  SELECT * FROM student ORDER BY age LIMIT 10;

过程四:order by 时规则不一致, 索引失效 (顺序错,不索引;方向反,不索引)

# 失效
EXPLAIN  SELECT * FROM student ORDER BY age DESC, classid ASC LIMIT 10;
# 失效
EXPLAIN  SELECT * FROM student ORDER BY classid DESC, NAME DESC LIMIT 10;
# 失效
EXPLAIN  SELECT * FROM student ORDER BY age ASC,classid DESC LIMIT 10; 
# 可以
EXPLAIN  SELECT * FROM student ORDER BY age DESC, classid DESC LIMIT 10;

过程五:无过滤,不索引

# 可以
EXPLAIN  SELECT * FROM student WHERE age=45 ORDER BY classid;
# 可以
EXPLAIN  SELECT * FROM student WHERE age=45 ORDER BY classid,NAME; 
# 失效
EXPLAIN  SELECT * FROM student WHERE classid=45 ORDER BY age;
# 可以
EXPLAIN  SELECT * FROM student WHERE classid=45 ORDER BY age LIMIT 10;
CREATE INDEX idx_cid ON student(classid);
# 可以
EXPLAIN  SELECT * FROM student WHERE classid=45 ORDER BY age;

小结:

INDEX a_b_c(a,b,c)
order by 能使用索引最左前缀 - ORDER BY a
- ORDER BY a,b
- ORDER BY a,b,c
- ORDER BY a DESC,b DESC,c DESC
如果 WHERE 使用索引的最左前缀定义为常量,则 order by 能使用索引 
- WHERE a = const ORDER BY b,c
- WHERE a = const AND b = const ORDER BY c
- WHERE a = const ORDER BY b,c
- WHERE a = const AND b > const ORDER BY b,c
不能使用索引进行排序
- ORDER BY a ASC,b DESC,c DESC /* 排序不一致 */ 
- WHERE g = const ORDER BY b,c /*丢失a索引*/
- WHERE a = const ORDER BY c /*丢失b索引*/
- WHERE a = const ORDER BY a,d /*d不是索引的一部分*/
- WHERE a in (...) ORDER BY b,c /*对于排序来说,多个相等条件也是范围查询*/

5.3 案例实战


下面我们通过一个案例来实战filesort和index两种排序。对ORDER BY子句,尽量使用 Index 方式排序,避免使用 FileSort 方式排序。


场景:查询年龄为30岁的,且学生编号小于101000的学生,按用户名称排序


执行案例前先清除student上的索引,只留主键:

DROP INDEX idx_age ON student;
DROP INDEX idx_age_classid_stuno ON student;
DROP INDEX idx_age_classid_name ON student;
#或者
call proc_drop_index('atguigudb2','student');

测试以下的查询,此时显然使用的是filesort进行排序

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno <101000 ORDER BY

77bdff108e982213025e0eea65fe37d6.png

结论:type 是 ALL,即最坏的情况。Extra 里还出现了 Using filesort,也是最坏的情况。优化是必须的。

方案一:为了去掉 filesort 我们可以创建特定索引

# 创建新索引
CREATE INDEX idx_age_name ON student(age,NAME);
# 进行测试,可以看到已经使用了索引,虽然仅仅使用到了age这个字段
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno < 101000 ORDER BY NAME ;

5b1a301fd1b905ad2f756133d480bed5.png

方案二:尽量让 where 的过滤条件和排序使用上索引

DROP INDEX idx_age_name ON student;
# 建立三个字段的索引
CREATE INDEX idx_age_stuno_name ON student (age,stuno,NAME);
# 进行测试
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 30 AND stuno <101000 ORDER BY NAME ;

e966085fb4c532b03a313acd6f3ca89f.png


此时又使用了filesort,这是为什么呢?这是因为此时filesort的性能更高。不信你可以对比执行下(0.03sec和0.00sec),看看时间的区别。结果竟然有 filesort 的 sql 运行速度,超过了已经优化掉 filesort的 sql,而且快了很多,几乎一瞬间就出现了结果。看来优化器做的工作真的特别灵活


原因:所有的排序都是在条件过滤之后才执行的。所以,如果条件过滤大部分数据的话,剩下几百几千条数据进行排序其实并不是很消耗性能,即使索引优化了排序,但实际提升性能很有限。相对的 stuno < 10100 这个条件,如果没有用到索引的话,要对几万条数据进行扫描,这是非常消耗性能的,所以索引放在这个字段上性价比最高,是最优选择。


结论:


两个索引同时存在,mysql 自动选择最优的方案。(对于这个例子,mysql 选择 idx_age_stuno_name)。但是,随着数据量的变化,选择的索引也会随之变化的 。

当【范围条件】和【group by 或者 order by】的字段出现二选一时,优先观察条件字段的过滤数量,如果过滤的数据足够多,而需要排序的数据并不多时,优先把索引放在范围字段上。反之,亦然。

思考:这里我们使用如下索引,是否可行? (可行)

DROP INDEX idx_age_stuno_name ON student;
CREATE INDEX idx_age_stuno ON student(age,stuno);

5.4 filesort 算法:双路排序和单路排序

排序的字段若不在索引列上,则 filesort 会有两种算法:双路排序 和 单路排序


1. 双路排序(慢)


MySQL4.1 之前是使用双路排序,字面意思就是两次扫描磁盘,最终得到数据, 读取行指针和 order by 列,对他们进行排序,然后扫描已经排序好的列表,按照列表中的值重新从列表中读取对应的数据输出

从磁盘取排序字段,在 buffer 进行排序,再从 磁盘取其他字段 。

取一批数据,要对磁盘进行两次扫描,众所周知,IO 是很耗时的,所以在 MySQL4.1 之后,出现了第二种改进的算法,就是单路排序。


2. 单路排序(快)


从磁盘读取查询需要的 所有列 ,按照 order by 列在 buffer 对它们进行排序,然后扫描排序后的列表进行输出, 它的效率更快一些,避免了第二次读取数据。并且把随机 IO 变成了顺序 IO,但是它会使用更多的空间, 因为它把每一行都保存在内存中了。


结论及引申出的问题


由于单路是后出的,总体而言好过双路


但是用单路有问题


在 sort_buffer 中,单路比多路要多占用很多空间,因为单路是把所有字段都取出,所以可能取出的数据的总大小超出了sort_buffer的容量,导致每次只能取 sort_buffer 容量大小的数据,进行排序(创建 temp 文件,多路合并),排完再取 sort_buffer 容量大小,再排…从而多次I/O。


单路本来想省一次 I/O 操作,反而导致了大量的 I/O 操作,反而得不偿失。


优化策略


尝试提高 sort_buffer_size


不管用哪种算法,提高这个参数都会提高效率,要根据系统的能力去提高,因为这个参数是针对每个进程(connection)的 1M - 8M 之间调整。MySQL5.7,InnoDB 存储引擎默认值都是 1048576 字节,1MB。


b33b9588645b056d97f24fe382207b8d.png

尝试提高 max_length_for_sort_data

  • 提高这个参数,会增加改进算法的概率。
SHOW VARIABLES LIKE'%max_length_for_sort_data%';


但是如果设的太高,数据总容量超出 sort_buffer_size 的概率就增大,明显症状是高的磁盘 I/O 活动和低的处理器使用率。如果需要返回的列的总长度大于 max_length_for_sort_data,使用双路算法,否则使用单路算法。1024-8192字节之间调整。


Order by 时 select 是一个大忌。最好只Query需要的字段。*


当 Query 的字段大小综合小于 max_length_for_sort_data,而且排序字段不是 TEXT|BLOG 类型时,会改进后的算法——单路排序,否则用老算法——多路排序。

两种算法的数据都有可能超出 sort_buffer_size 的容量,超出之后,会创建 tmp 文件进行合并排序,导致多次 I/O,但是用单路排序算法的风险会更大一些,所以要提高 sort_buffer_size


6. GROUP BY优化


group by 使用索引的原则几乎跟 order by 一致 ,group by 即使没有过滤条件用到索引,也可以直接使用索引。

group by 先排序再分组,遵照索引建的最佳左前缀法则

当无法使用索引列,增大 max_length_for_sort_data 和 sort_buffer_size 参数的设置

where 效率高于 having,能写在 where 限定的条件就不要写在 having 中了

减少使用 order by,和业务沟通能不排序就不排序,或将排序放到程序端去做。Order by、group by、distinct 这些语句较为耗费 CPU,数据库的 CPU 资源是极其宝贵的。

包含了 order by、group by、distinct 这些查询的语句,where 条件过滤出来的结果集请保持在 1000 行以内,否则 SQL 会很慢。


7. 优化分页查询


一般分页查询时,通过创建覆盖索引能够比较好地提高性能。一个常见有非常头疼的问题就是 limit 2000000,10,此时需要 MySQL 排序前 2000010 记录,仅仅返回 2000000-2000010 的记录,其他记录丢弃,查询排序的代价非常大。


EXPLAIN SELECT * FROM student LIMIT 2000000,10;


优化思路一


在索引上完成排序分页操作,最后根据主键关联回原表查询所需要的其他列内容。


EXPLAIN SELECT * FROM student t,(SELECT id FROM student ORDER BY id LIMIT 2000000,10) a
WHERE t.id = a.id;

b454bcec07773e38bdc882b182c8e164.png


优化思路二

该方案适用于主键自增的表,可以把 Limit 查询转换成某个位置的查询 。

EXPLAIN SELECT * FROM student WHERE id > 2000000 LIMIT 10;

b5ca4bfc45a05d78c785efcee23b204f.png

8. 优先考虑覆盖索引

8.1 什么是覆盖索引?

理解方式一:索引是高效找到行的一个方法,但是一般数据库也能使用索引找到一个列的数据,因此它不必读取整个行。毕竟索引叶子节点存储了它们索引的数据;当能通过读取索引就可以得到想要的数据,那就不需要读取行了。 一个索引包含了满足查询结果的数据就叫做覆盖索引。


理解方式二:非聚簇复合索引的一种形式,它包括在查询里的 SELECT、JOIN 和 WHERE 子句用到的所有列(即建索引的字段正好是覆盖查询条件中所涉及的字段)。


简单说就是, 索引列+主键 包含 SELECT 到 FROM 之间查询的列。


举例一:

#删除之前的索引
DROP INDEX idx_age_stuno ON student;
CREATE INDEX idx_age_name ON student (age,NAME);
EXPLAIN SELECT * FROM student WHERE age <> 20;

54f2c6c2d0b6f196cab0459cfb9be561.png

EXPLAIN SELECT age,NAME FROM student WHERE age <> 20;

3eae0e5e1c835ca64a6529a30a73f094.png

注意:前面我们提到如果使用上<>就不会使用上索引了 并不是绝对的。比如上面这条SQL就用上了!!!Attention!我们讲解的关于 索引失效以及索引优化都是根据效率来决定的。对于二级索引来说:查询时间 = 二级索引计算时间 + 回表查询时间,由于我们使用的是覆盖索引,回表查询时间 = 0,索引优化器考虑到这一点就使用上 二级索引了~


举例二:

EXPLAIN SELECT * FROM student WHERE NAME LIKE '%abc';


7e60e2c9da0984373065f4d48653f2c2.png

EXPLAIN SELECT id,age FROM student WHERE NAME LIKE '%abc';

b74eb73255783a331be7b9cb9b3e4488.png

同上,由于也使用了覆盖索引,最终SQL执行也正常使用上了索引~

8.2 覆盖索引的利弊

好处:


1. 避免Innodb表进行索引的二次查询(回表)


Innodb 是以聚集索引的顺序来存储的,对于 Innodb 来说,二级索引在叶子节点中所保存的是行的主键信息,如果是用二级索引查询数据,在查找到相应的键值后,还需通过主键进行二次查询才能获取我们真实所需要的数据。


在覆盖索引中,二级索引的键值中可以获取所要的数据,避免了对主键的二次查询,减少了 IO 操作,提升了查询效率。


2. 可以把随机 IO 变成顺序 IO 加快查询效率


由于覆盖索引是按键值的顺序存储的,对于 I/O 密集型的范围查找来说,对比随机从磁盘读取每一行的数据 I/O 要少的多,因此利用覆盖索引在访问时也可以把磁盘的随机读取的 I/O 转变成索引查找的顺序 I/O。


由于覆盖索引可以减少树的搜索次数,显著提升查询性能,所以使用覆盖索引是一个常用的性能优化手段。


弊端:


索引字段的维护 总是有代价的。因此,在建立冗余索引来支持覆盖索引时就需要权衡考虑了。这是业务 DBA,或者称为业务数据架构师的工作。


9. 如何给字符串添加索引

有一张教师表,表定义如下:

create table teacher(
    ID bigint unsigned primary key,
    email varchar(64),
    ...
)engine=innodb;

讲师要使用邮箱登录,所以业务代码中一定会出现类似于这样的语句:

mysql> select col1, col2 from teacher where email='xxx';

如果 email 这个字段上没有索引,那么这个语句就只能做 全表扫描

9.1 前缀索引

MySQL是支持前缀索引的。默认地,如果你创建索引的语句不指定前缀长度,那么索引就会包含整个字符串。

mysql> alter table teacher add index index1(email); 
#或
mysql> alter table teacher add index index2(email(6));

这两种不同的定义在数据结构和存储上有什么区别呢?下图就是这两个索引的示意图。


a793ef56ea987f7fac9265f9903fe50b.png


以及


bfdc2bfcff45b35695eb8c14a2d42410.png


如果使用的是 index1 (即 email 整个字符串的索引结构),执行顺序是这样的:


从 index1 索引树找到满足索引值是’ zhangssxyz@xxx.com ’的这条记录,取得 ID2 的值;

到主键上查到主键值是 ID2 的行,判断 email 的值是正确的,将这行记录加入结果集;

取 index1 索引树上刚刚查到的位置的下一条记录,发现已经不满足email=’ zhangssxyz@xxx.com ’的条件了,循环结束。

这个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行。


如果使用的是 index2(即 email(6) 索引结构),执行顺序是这样的:


从 index2 索引树找到满足索引值是’zhangs’的记录,找到的第一个是 ID1;

到主键上查到主键值是 ID1 的行,判断出 email 的值不是’ zhangssxyz@xxx.com ’,这行记录丢弃;

取 index2 上刚刚查到的位置的下一条记录,发现仍然是’zhangs’,取出 ID2,再到 ID 索引上取整行然后判断,这次值对了,将这行记录加入结果集;

重复上一步,直到在 idxe2 上取到的值不是’zhangs’时,循环结束。

也就是说 使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本。 前面已经讲过区分度,区分度越高越好。因为区分度越高,意味着重复的键值越少。



相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1天前
|
存储 关系型数据库 MySQL
MySQL bit类型增加索引后查询结果不正确案例浅析
【8月更文挑战第17天】在MySQL中,`BIT`类型字段在添加索引后可能出现查询结果异常。表现为查询结果与预期不符,如返回错误记录或遗漏部分数据。原因包括索引使用不当、数据存储及比较问题,以及索引创建时未充分考虑`BIT`特性。解决方法涉及正确运用索引、理解`BIT`的存储和比较机制,以及合理创建索引以覆盖各种查询条件。通过`EXPLAIN`分析执行计划可帮助诊断和优化查询。
|
3天前
|
SQL 存储 关系型数据库
mysql加索引真的会锁表吗?揭秘背后的技术细节与规避策略
【8月更文挑战第16天】在数据库管理中,添加索引能大幅提升查询效率。MySQL执行此操作时的锁定行为常引起关注。文章详细解析MySQL中索引添加时的锁定机制及其原理。不同存储引擎及SQL语句影响锁定策略:MyISAM需全表锁定;InnoDB提供更灵活选项,如使用`ALTER TABLE... LOCK=NONE`可在加索引时允许读写访问,尽管可能延长索引构建时间。自MySQL 5.6起,在线DDL技术可进一步减少锁定时间,通过`ALGORITHM=INPLACE`和`LOCK=NONE`实现近乎无锁的表结构变更。合理配置这些选项有助于最小化对业务的影响并保持数据库高效运行。
14 4
|
4天前
|
SQL JavaScript 关系型数据库
Mysql索引不当引发死锁问题
本文通过真实案例解析了MySQL在高并发环境下出现死锁的问题。数据库表`t_award`包含多个索引,但在执行特定SQL语句时遭遇索引失效,导致更新操作变慢并引发死锁。分析发现,联合索引`(pool_id, identifier, status, is_redeemed)`因`identifier`允许为空值而导致索引部分失效。此外,`pool_id`上的普通索引产生的间隙锁在高并发下加剧了死锁风险。为解决此问题,文中提出了调整索引顺序至`(pool_id, status, is_redeemed, identifier)`等方案来优化索引使用,进而减轻死锁现象。
|
6天前
|
缓存 NoSQL Redis
一天五道Java面试题----第九天(简述MySQL中索引类型对数据库的性能的影响--------->缓存雪崩、缓存穿透、缓存击穿)
这篇文章是关于Java面试中可能会遇到的五个问题,包括MySQL索引类型及其对数据库性能的影响、Redis的RDB和AOF持久化机制、Redis的过期键删除策略、Redis的单线程模型为何高效,以及缓存雪崩、缓存穿透和缓存击穿的概念及其解决方案。
|
8天前
|
存储 关系型数据库 MySQL
MySQL 上亿大表,如何深度优化?
【8月更文挑战第11天】随着大数据时代的到来,MySQL 作为广泛使用的关系型数据库管理系统,经常需要处理上亿级别的数据。当数据量如此庞大时,如何确保数据库的查询效率、稳定性和可扩展性,成为了一个亟待解决的问题。本文将围绕 MySQL 上亿大表的深度优化,分享一系列实用的技术干货,帮助你在工作和学习中应对挑战。
25 1
|
3天前
|
存储 SQL 关系型数据库
探索MySQL的执行奥秘:从查询执行到数据存储与优化的深入解析
探索MySQL的执行奥秘:从查询执行到数据存储与优化的深入解析
|
10天前
|
运维 关系型数据库 MySQL
"MySQL运维精髓:深入解析数据库及表的高效创建、管理、优化与备份恢复策略"
【8月更文挑战第9天】MySQL是最流行的开源数据库之一,其运维对数据安全与性能至关重要。本文通过最佳实践介绍数据库及表的创建、管理与优化,包括示例代码。涵盖创建/删除数据库、表结构定义/调整、索引优化和查询分析,以及数据备份与恢复等关键操作,助您高效管理MySQL,确保数据完整性和系统稳定运行。
25 0
|
12天前
|
SQL 缓存 关系型数据库
MySQL配置简单优化与读写测试
MySQL配置简单优化与读写测试
|
6天前
|
存储 关系型数据库 MySQL
MySQL——数据库备份上传到阿里云OSS存储
MySQL——数据库备份上传到阿里云OSS存储
20 0
|
8天前
|
Oracle 关系型数据库 MySQL
Mysql和Oracle数据库死锁查看以及解决
【8月更文挑战第11天】本文介绍了解决MySQL与Oracle数据库死锁的方法。MySQL可通过`SHOW ENGINE INNODB STATUS`查看死锁详情,并自动回滚一个事务解除死锁;也可手动KILL事务。Oracle则通过查询V$LOCK与V$SESSION视图定位死锁,并用`ALTER SYSTEM KILL SESSION`命令终止相关会话。预防措施包括遵循ACID原则、优化索引及拆分大型事务。

热门文章

最新文章