谈谈MYSQL索引是如何提高查询效率的

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 什么是索引,索引的底层数据结构,索引的几种类型
文章已收录Github精选,欢迎Starhttps://github.com/yehongzhi/learningSummary

前言

我们都知道当查询数据库变慢时,需要建索引去优化。但是只知道索引能优化显然是不够的,我们更应该知道索引的原理,因为不是加了索引就一定会提升性能。那么接下来就一起探索MYSQL索引的原理吧。

什么是索引

索引其实是一种能高效帮助MYSQL获取数据的数据结构,通常保存在磁盘文件中,好比一本书的目录,能加快数据库的查询速度。除此之外,索引是有序的,所以也能提高数据的排序效率。

通常MYSQL的索引包括聚簇索引,覆盖索引,复合索引,唯一索引,普通索引,通常底层是B+树的数据结构。

总结一下,索引的优势在于:

  • 提高查询效率。
  • 降低数据排序的成本。

缺点在于:

  • 索引会占用磁盘空间。
  • 索引会降低更新表的效率。因为在更新数据时,要额外维护索引文件。

索引的类型

  • 聚簇索引

索引列的值必须是唯一的,并且不能为空,一个表只能有一个聚簇索引。

  • 唯一索引

索引列的值是唯一的,值可以为空。

  • 普通索引

没有什么限制,允许在定义索引的列中插入重复值和空值。

  • 复合索引

也叫组合索引,用户可以在多个列上组合建立索引,遵循“最左匹配原则”,在条件允许的情况下使用复合索引可以替代多个单列索引的使用。

索引的数据结构

我们都知道索引的底层数据结构采用的是B+树,但是在讲B+树之前,要先知道B树,因为B+树是在B树上面进行改进优化的。

首先讲一下B树的特点:

  • B树的每个节点都存储了多个元素,每个内节点都有多个分支。
  • 节点中元素包含键值和数据,节点中的键值从小到大排序。
  • 父节点的数据不会出现在子节点中。
  • 所有的叶子节点都在同一层,叶节点具有相同的深度。

在上面的B树中,假如我们要找值等于18的数据,查找路径就是磁盘块1->磁盘块3->磁盘块8。

过程如下:

第一次磁盘IO:首先加载磁盘块1到内存中,在内存中遍历比较,因为17<18<50,所以走中间P2,定位到磁盘块3。

第二次磁盘IO:加载磁盘块3到内存,依然是遍历比较,18<25,所以走左边P1,定位到磁盘块8。

第三次磁盘IO:加载磁盘块8到内存,在内存中遍历,18=18,找到18,取出data。

如图所示:

如果data存储的是行数据,直接返回,如果存的是磁盘地址则根据磁盘地址到磁盘中取出数据。可以看出B树的查询效率是很高的。

B树存在着什么问题,需要改进优化呢?

第一个问题:B树在范围查询时,性能并不理想。假如要查询13到30之间的数据,查询到13后又要回到根节点再去查询后面的数据,就会产生多次的查询遍历。

第二个问题:因为非叶子节点和叶子节点都会存储数据,所以占用的空间大,一个页可存储的数据量就会变少,树的高度就会变高,磁盘的IO次数就会变多。

基于以上两个问题,就出现了B树的升级版,B+树。

B+树与B树最大的区别在于两点:

  • B+树只有叶子节点存储数据,非叶子节点只存储键值。而B树的非叶子节点和叶子节点都会存储数据。
  • B+树的最底层的叶子节点会形成一个双向有序链表,而B树不会。

如图所示:

B+树的等值查询过程是怎么样的?

如果在B+树中进行等值查询,比如查询等于13的数据。

查询路径为:磁盘块1->磁盘块2->磁盘块6。

第一次IO:加载磁盘块1,在内存中遍历比较,13<17,走左边,找到磁盘块2。

第二次IO:加载磁盘块2,在内存中遍历比较,10<13<15,走中间,找到磁盘块6。

第三次IO:加载磁盘块6,依次遍历,找到13=13,取出data。

所以B+树在等值查询的效率是很高的。

B+树的范围查询过程又是怎么样呢?

比如我们要进行范围查询,查询大于5并且小于15的数据。

查询路径为:磁盘块1->磁盘块2->磁盘块5->磁盘块6。

第一次IO:加载磁盘块1,比较得出5<17,然后走左边,找到磁盘块2。

第二次IO:加载磁盘块2,比较5<10,然后还是走左边,找到磁盘块5。

第三次IO:加载磁盘块5,然后找大于5的数据。

第四次IO:由于最底层是有序的双向链表,所以继续往右遍历即可,直到不符合小于15的数据为止。

过程如图所示:

所以在范围查询的时候,是不需要像B树一样,再回到根节点,这就是底层采用双向链表的好处。

所以B+树的优势在于,能保证等值查询和范围查询的快速查找

InnoDB索引

我们常用的MySQL存储引擎一般是InnoDB,所以接下来讲讲几种不同的索引的底层数据结构,以及查找过程。

聚簇索引

前面讲过,每个InnoDB表有且仅有一个聚簇索引。除此之外,聚簇索引在表的创建有以下几点规则:

  • 在表中,如果定义了主键,InnoDB会将主键索引作为聚簇索引。
  • 如果没有定义主键,则会选择第一个不为NULL的唯一索引列作为聚簇索引。
  • 如果以上两个都没有。InnoDB 会使用一个6 字节长整型的隐式字段 ROWID字段构建聚簇索引。该ROWID字段会在插入新行时自动递增。

除了聚簇索引之外的索引都称为非聚簇索引,区别在于,聚簇索引的叶子节点存储的数据是整行数据,而非聚簇索引存储的是该行的主键值。

比如有一张user表,如图所示:

底层的数据结构就像这样:

当我们用主键值去查询的时候,查询效率是很快的,因为可以直接返回数据。

普通索引

也就是用得最多的一种索引,比如我要为user表的age列创建索引,SQL语句可以这样写:

CREATE INDEX INDEX_USER_AGE ON `user`(age);

普通索引属于非聚簇索引,所以叶子节点存储的是主键值,底层的数据结构大概长这个样子:

比如要查询age=33的数据,那么首先查到磁盘块7的age=33的数据,获取到主键值,主键值为4。

接着再通过主键值等于4,查询到该行的数据。所以总得来说,底层会进行两次查询。

这种先通过查询主键值,再通过主键值查询到数据的过程就叫做回表查询。

覆盖索引

既然上面提到了回表查询,那么自然而然会想到,有没有什么办法能避免回表查询呢?答案肯定是有的,那就是使用覆盖索引。

覆盖索引不是一种索引的类型,而是一种使用索引的方式。假设你需要查询的列是建立了索引,查询的结果在索引列上就能获取,那就可以用覆盖索引。

比如上面的例子,我们通过age=33查询,我需要查询的结果就只要age这一列,那就可以用到覆盖索引,如图所示:

使用到覆盖索引的话,就能避免回表查询,所以在写SQL语句时尽量不要写SELECT *

总结

这篇文章主要讲的是索引的类型,索引的数据结构,以及InnoDB表中常用的几种索引。当然,除了上述讲的这些之外,还有很多关于索引的知识,比如索引失效的场景,索引创建的原则等等,由于篇幅过长,留着以后再讲。

那么这篇文章就写到这里了,感谢大家的阅读。

觉得有用就点个赞吧,你的点赞是我创作的最大动力~

我是一个努力让大家记住的程序员。我们下期再见!!!

在这里插入图片描述

能力有限,如果有什么错误或者不当之处,请大家批评指正,一起学习交流!
相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
8天前
|
SQL 关系型数据库 MySQL
在MySQL中,什么是结构化查询语言 (SQL)
【8月更文挑战第20天】在MySQL中,什么是结构化查询语言 (SQL)
20 1
|
7天前
|
缓存 关系型数据库 MySQL
在Linux中,如何优化MySQL性能,包括索引优化和查询分析?
在Linux中,如何优化MySQL性能,包括索引优化和查询分析?
|
8天前
|
SQL 关系型数据库 MySQL
MySQL索引你用对了吗?
本文从遇到的问题出发,分析了tddl优化器、MySQL索引、分表拆分键的选择相关知识。
|
9天前
|
存储 关系型数据库 MySQL
MySQL bit类型增加索引后查询结果不正确案例浅析
【8月更文挑战第17天】在MySQL中,`BIT`类型字段在添加索引后可能出现查询结果异常。表现为查询结果与预期不符,如返回错误记录或遗漏部分数据。原因包括索引使用不当、数据存储及比较问题,以及索引创建时未充分考虑`BIT`特性。解决方法涉及正确运用索引、理解`BIT`的存储和比较机制,以及合理创建索引以覆盖各种查询条件。通过`EXPLAIN`分析执行计划可帮助诊断和优化查询。
|
1天前
|
关系型数据库 MySQL 索引
MySQL的全文索引查询方法
【8月更文挑战第26天】MySQL的全文索引查询方法
8 0
|
4天前
|
缓存 关系型数据库 MySQL
【缓存大对决】Memcached VS MySQL查询缓存,谁才是真正的性能之王?
【8月更文挑战第24天】在现代Web应用中,缓存技术对于提升性能与响应速度至关重要。本文对比分析了Memcached与MySQL查询缓存这两种常用方案。Memcached是一款高性能分布式内存对象缓存系统,支持跨服务器共享缓存,具备灵活性与容错性,但受限于内存大小且不支持数据持久化。MySQL查询缓存内置在MySQL服务器中,简化了缓存管理,特别适用于重复查询,但功能较为单一且扩展性有限。两者各有所长,实际应用中可根据需求单独或结合使用,实现最佳性能优化。
17 0
|
4天前
|
SQL 算法 关系型数据库
MySQL索引看这篇就行
MySQL索引看这篇就行
|
7天前
|
关系型数据库 MySQL 数据库
如何利用MySQL建立覆盖原表的索引优化查询性能
通过合理使用覆盖索引,可以显著提高MySQL数据库的查询性能。然而,创建索引时需要仔细分析查询需求,合理设计索引结构,以确保索引能够发挥最大的效益。
15 0
|
6天前
|
SQL 关系型数据库 MySQL
【揭秘】MySQL binlog日志与GTID:如何让数据库备份恢复变得轻松简单?
【8月更文挑战第22天】MySQL的binlog日志记录数据变更,用于恢复、复制和点恢复;GTID为每笔事务分配唯一ID,简化复制和恢复流程。开启binlog和GTID后,可通过`mysqldump`进行逻辑备份,包含binlog位置信息,或用`xtrabackup`做物理备份。恢复时,使用`mysql`命令执行备份文件,或通过`innobackupex`恢复物理备份。GTID模式下的主从复制配置更简便。
32 2
|
4天前
|
关系型数据库 MySQL 数据库
RDS MySQL灾备服务协同解决方案构建问题之数据库备份数据的云上云下迁移如何解决
RDS MySQL灾备服务协同解决方案构建问题之数据库备份数据的云上云下迁移如何解决