一、索引
什么是索引
索引是对数据库表中一列或多列的值进行排序的一种结构。
一个数据表的索引建立对于数据库的高效运行是非常重要的,因为索引可以大大提高的检索速度,也就是增删改查中的 " 查 " 。在 MySQL 中,我们可以对表中的一列或多列创建索引,并指定索引的类型。
如果我们将数据库表比作成字典,将数据比作成字典内容,那么 " 索引 " 就是 " 目录 ",可想而知,索引对于查找操作是非常有意义的。
索引的优点
① 索引大大减小了服务器需要扫描的数据量,从而加快了数据的查找速度,这也是创建索引的最主要的原因。
② 索引可以帮助服务器避免排序和创建临时表。
索引的缺点
① 索引需要占物理空间,创建出多个索引就占用了更多的空间。
② 由于索引本身需要维护,所以它拖慢了增、删、改的效率。
注意:
说白了,创建索引就是利用空间换取了查找数据的时间,但我们很多情况下也仍然需要创建它,因为在实际场景中,查找操作要多于增删改的操作。
二、数据库操作索引
1. 查看索引
show index from 表名;
2. 创建索引
其中,下面索引名字是自定义起的名字。
create index 索引名字 on 表名(列名);
3. 删除索引
drop index 索引名字 on 表名;
注意事项
创建索引和删除索引是一件非常低效的操作,尤其是当表中有很多数据的时候。所以,对于线上的数据库,如果当前表中没有索引,我们不能贸然创建索引,同样我们也不能贸然删除索引,这容易将数据库弄崩溃。
此外,如果我们在字段创建时,为其添加了下面的约束,也会自动创建出索引。
① 主键约束 ( PRIMARY KEY )
② 唯一约束 ( UNIQUE )
③ 外键约束 ( FOREIGN KEY )
如下图,student 表有索引,score 表没有索引。
三、索引背后的数据结构
比较三种数据结构:【二叉搜索树、B 树、B+ 树】
1. 二叉搜索树
二叉搜索树在我之前的博客中有写到,并不难,不再赘述,感兴趣的小伙伴可以点开下面的链接,看一下详细介绍。
2. B-Tree (B树)
备注:
B-Tree 读作 B 树,而不是 B 杠 树。B 即 Balanced,表示平衡的意思。
B 树的每个节点上,都会存储 N 个 key 值,N 个 key 值就划分了 N+1 个区间,每个区间都对应到一个新的节点,而从新的节点开始,又是一棵树…
B 树的特点
① 在 B 树 中查找数据的过程和在二叉搜索树中查找时非常相似,先从根节点出发,根据查找数据与当前节点,来判断两者谁大谁小,以此来确定一个区间。
② 我们从 B 树 的结构来看,很明显,它每一层所能比较节点的次数远远大于二叉搜索树的每一层的比较次数,这就会使利用 B 树 查找数据的时候,所能查找到的高度大大降低了。而树的高度又与磁盘 I/O 次数有关,树低一层,磁盘的读写次数就少一次,从而就会使得查找速度快很多。
3. B+ Tree (B+ 树)
注意: MySQL 索引的底层数据结构是 B+ 树。
B+ 树是对 B 树 的优化,它也是一棵 N 叉搜索树,每个节点上都包含多个 Key 值,每个节点如果有 N 个 Key,就分成了 N 个区间。
B+ 树 与 B 树的区别
① B+ 树的叶子节点存放着所有的数据,而 B 树的一个数据只存在于独立的一个节点中,其他节点不会重复此相同的数据。
② B+ 树的非叶子节点只存储键值对索引,而 B 树的所有节点既存储索引,又存储数据。
③ B+ 树的每一个叶子节点都通过单链表连接起来,且数据的大小按顺序排列,从而方便叶子节点的范围遍历。但 B 树的叶子节点不存在链表结构。
B+ 树的特点
① 因为 B+ 树的所有数据均存储在叶子节点,而且数据是按照顺序排列的,所以 B+ 树使得范围查找、区间查找、分组查找变得异常简单。
② B 树由于所有的节点既存放索引,又存放数据,所以使用 B 树查找时,数据可能在树的不同高度被找到,这使得 B 树查找不稳定。然而,B+ 树 所有的查询最终都落在叶子节点中,每次的查询磁盘 IO 次数都是差不多的,查询速度非常稳定。
③ 由于 B+ 树 的非叶子节点只存储了索引 (键值对) 信息,而没有数据,这就使得 B+ 树非叶子节点占用的空间较小,所有它就能够加载更多的索引。这也反应了 B+ 树比 B 树更加的 " 矮胖 ",所以磁盘 I/O 次数更少,查找速度更快。
4. 理解索引
当别人 / 面试官让你谈谈对索引的理解,我们从三点出发:
(1) 索引是干啥的?
(2) 索引的适用场景,使用索引后,有什么优缺点?
(3) 索引背后的数据结构,(将 B+ 树画出来,直接按图陈述思路即可。)