面试官问我索引为什么这快?我好像解释不清楚了

简介: 阿粉相信大家肯定都知道,在数据库中加一定量的索引,会让你的查询语句,从原来的 3 秒缩短到零点几秒的程度,但是很多人都不知道为什么要加索引,为什么加了索引之后,你的查询语句就会起飞呢?今天阿粉来聊一下索引。

索引的类型(常见的)

  • 主键索引(primary key)
    主键索引这个阿粉从刚开始接触开发的时候,就被各种灌输,表的主键就默认是索引,不允许出现空值。
  • 普通索引(index/normal)
    MySQL中基本索引类型,没有什么限制,允许在定义索引的列中插入重复值和空值。
  • 全文索引(fulltext)
    只能在文本类型CHAR,VARCHAR,TEXT类型字段上创建全文索引。MyISAM和InnoDB中都可以使用全文索引。
  • 唯一索引(unique)
    索引列中的值必须是唯一的,但是允许为空值。

索引的类型肯定不限制于这几项,

既然我们知道分类了,我们接下来再来看看不同索引的创建方式

不同索引的创建方式

其实如果你真的不会去写 SQL 去创建索引,最简单的,Navicat 你总是会用的吧,图形化的界面操作,你肯定也是了解的吧,那图形化直接操作不就好了。

这样子操作是不是简单明了,选择你想要创建索引的类型,然后指名你想要创建索引的字段,最后再给他加上个注释,完美解决,但是我们还是要写语句来看一下的。

  • 创建普通的索引

ALTER TABLE table_name ADD INDEX index_name (column)

比如我们有一张表叫做 user 我们想给 user 表中的一个叫做 phone 字段增加一个索引,应该怎么去写呢?

ALTER TABLE user ADD INDEX phoneIndex (phone)

这时候我们就创建好了一个索引了,索引的删除,相对来说也是非常的简单。其实说是创建索引,实际上就是给我们原有表中的某个字段上增加一个索引,这个大家一定得清楚哈,千万别和 Create 给搞混了。下面阿粉就直接简单的给大家称之为创建吧。

ALTER TABLE testalter_tb1 DROP INDEX index_name

这样删除我们刚才建立的索引就是

ALTER TABLE user DROP INDEX phoneIndex

这时候我们就能看到删除成功了。

> OK
> 时间: 0.012s
  • 创建唯一索引(unique)并删除

ALTER TABLE user ADD unique phoneIndex (phone)

ALTER TABLE user DROP INDEX phoneIndex;

千万不要想当然的认为创建的时候我指定了索引的类型,然后删除的时候也执行一个 ALTER TABLE user DROP unique phoneIndex; 阿粉亲身实践,确实是不成功的。

  • 创建主键索引(primary key)并删除

ALTER TABLE user ADD PRIMARY KEY (phone):

ALTER TABLE user DROP PRIMARY KEY

一般我们在建表的时候,都把这个主键索引都建好了,所以使用的场景并不是很多见。

  • 创建全文索引(fulltext)并删除

创建方式都差不多就是这样

ALTER TABLE user ADD FULLTEXT phoneIndex (phone)

ALTER TABLE user DROP INDEX phoneIndex;

既然我们了解了创建的方式了,那是不是该回归正题,说说为什么使用索引就会快,这就得涉及到索引的底层知识了,

索引的实现

在没有索引的情况下,我们查找数据只能按照从头到尾的顺序逐行查找,每查找一行数据,意味着我们要到到磁盘相应的位置去读取一条数据。

如果把查询一条数据分为到磁盘中查询和比对查询条件两步的话,到磁盘中查询的时间会远远大于比对查询条件的时间,这意味着在一次查询中,磁盘io占用了大部分的时间。更进一步地说,一次查询的效率取绝于磁盘io的次数,如果我们能够在一次查询中尽可能地降低磁盘io的次数,那么我们就能加快查询的速度。

所以我们就要开始引入索引,然后分析索引底层是如何实现查找迅速的。

实际上索引的底层实际上就是树,也就 B 树和 B+ 树,也可以称之为变种的 B+ 树。大家也都知道 Mysql中最常用的引擎像InnoDB和MyISAM,最终都选择了B+树作为索引

那我们来说说这个B树和B+树。

B-树,也称为B树,是一种平衡的多叉树(可以对比一下平衡二叉查找树),它比较适用于对外查找

画一个二阶B树

24.jpg


二阶B树

那么我们为什么称他为二阶 B 树呢?这个阶数实际上就是说一个 节点 最多有几个 子节点

我们上面的图,X元素,有2个子节点,A 元素,又有2个 子节点 C 和 D ,而 B 元素,又有 2 个子节点 E F ,也就是说一个节点最多有多少个子节点,我们就称它为几阶的树,通常这个值一般用 m 来表示。

注意我们所说的,也就是一个节点上 最多 的子节点数,如果有一个分支是有三个节点,而有一个是 两个节点 ,那我们就称它为 三阶 B 树。

一颗m阶的 B 树 要满足什么条件呢?

  • 每个节点至多可以拥有m棵子树。
  • 根节点,只有至少有2个节点(要么极端情况,就是一棵树就一个根节点,单细胞生物,即是根,也是叶,也是树)。
  • 非根非叶的节点至少有的Ceil(m/2)个子树(Ceil表示向上取整,图中3阶B树,每个节点至少有2个子树,也就是至少有2个叉)。
  • 非叶节点中的信息包括[n,A0,K1,A1,K2,A2,…,Kn,An],,其中n表示该节点中保存的关键字个数,K为关键字且Ki<Ki+1,A为指向子树根节点的指针。
  • 从根到叶子的每一条路径都有相同的长度,也就是说,叶子节点在相同的层,并且这些节点不带信息,实际上这些节点就表示找不到指定的值,也就是指向这些节点的指针为空。

B树的查询过程和二叉排序树比较类似,从根节点依次比较每个节点,因为每个节点中的关键字和左右子树都是有序的,所以只要比较节点中的关键字,或者沿着指针就能很快地找到指定的关键字,如果查找失败,则会返回叶子节点,即空指针。

B树搜索的简单伪算法如下:

BTree_Search(node, key) {
    if(node == null) return null;
    foreach(node.key)
    {
        if(node.key[i] == key) return node.data[i];
            if(node.key[i] > key) return BTree_Search(point[i]->node);
    }
    return BTree_Search(point[i+1]->node);
}
data = BTree_Search(root, my_key);

这就是个伪算法,写的不好,大家见谅,那么什么是 B+ 树呢?

B+ 树是一种树数据结构,是一个n叉树,每个节点通常有多个孩子,一颗B+树包含根节点、内部节点和叶子节点。根节点可能是一个叶子节点,也可能是一个包含两个或两个以上孩子节点的节点。

B+ 树通常用于数据库和操作系统的文件系统中。

NTFS, ReiserFS, NSS, XFS, JFS, ReFS 和BFS等文件系统都在使用B+树作为元数据索引。

B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。

B+ 树元素自底向上插入。

25.jpg

那 B+ 树又有哪些比较显著的特点呢?

  1. 每个父节点的元素都出现在了子节点中,分别是子节点最大或者最小的元素。
  2. 在上面的这一棵树中,根节点元素8是子节点258的最大的元素,根元素15也是。这时候要注意了,根节点最大的元素等同于整个B+树的最大的元素,以后无论是怎么插入或者是删除,始终都要保持最大的元素在根节点中。
  3. 叶子节点,因为父节点的元素都出现在了子节点当中,因此所有的叶子节点包含了全量的元素信息。

B+树与B树差异

有k个子节点的节点必然有k个元素

非叶子节点仅具有索引作用,跟记录有关的信息均存放在叶子节点中

树的所有叶子节点构成一个有序链表,可以按照元素排序的次序遍历全部记录

B树和B+树的区别在于,B+树的非叶子节点只包含导航信息,不包含实际的值,所有的叶子节点和相连的节点使用链表相连,便于区间查找和遍历。

说到这里,就会有读者开始想,说了半天,没有说到重点,为什么加了索引就快呢?

刚才阿粉也说了,数据库读取数据,是从磁盘上通过 IO 来进行数据的操作,一次磁盘IO操作可以取出物理存储中相邻的一大片数据,如果查询的索引数据(就是B+树中从根节点一直到叶子节点整个过程中查询的节点数)都集中在该区域,那么只需要一次磁盘IO,否则就需要多次磁盘IO。

这么说是不是就相对的简单明了了。

再举出一个简单的例子:

比如我们想要查询 user 表中 name 为 xiaohong 的数据,在我们写 SQL 的时候

select * from user where name = 'xiaohong'

这时候没有索引的情况下,数据库直接就把整个表全部扫描一遍,然后去找 name = ‘xiaohong’ 的数据

而我们给他加上索引之后,会通过索引查找去查询名为 ‘xiaohong‘ 的数据,因为该索引已经按照字母顺序排列,因此要查找名为 ‘xiaohong' 的记录时会快很多。

大家明白了么?就像是一个词典,我把 x 开头的数据都给你罗列出来,然后你从 x 开头的数据中去寻找,和你直接没有任何处理,直接一页一页的翻词典的速度,哪一个更快,相信大家也都明白了吧。


相关文章
|
7月前
|
存储 SQL 数据库
面试官:索引失效场景有哪些?
以下是内容的摘要: 本文列举了可能导致数据库索引失效的16种情况:全表扫描、索引列使用计算或函数、LIKE查询条件不匹配、未遵循联合索引最左前缀原则、索引列参与排序无筛选、隐式类型转换、OR条件连接索引、IN子句大量值、NOT操作、数据分布不均的JOIN、数据过于分散的查询、大结果集、临时表或派生表操作、索引维护不及时以及不等于比较和IS NOT NULL条件。这些情况都可能使查询优化器放弃使用索引,影响查询性能。
257 1
|
7月前
|
SQL 存储 关系型数据库
对线面试官 - 如何理解MySQL的索引覆盖和索引下推
索引下推是MySQL 5.6引入的优化,允许部分WHERE条件在索引中处理,减少回表次数。例如,对于索引(zipcode, lastname, firstname),查询`WHERE zipcode=&#39;95054&#39; AND lastname LIKE &#39;%etrunia%&#39;`时,索引下推先过滤zipcode,然后在索引中应用lastname条件,降低回表需求。索引下推可在EXPLAIN的`Using index condition`中看到。
对线面试官 - 如何理解MySQL的索引覆盖和索引下推
|
7月前
|
存储 关系型数据库 MySQL
最全MySQL面试60题(含答案):存储引擎+数据库锁+索引+SQL优化等
最全MySQL面试60题(含答案):存储引擎+数据库锁+索引+SQL优化等
1095 0
|
2月前
|
存储 关系型数据库 MySQL
阿里面试:为什么要索引?什么是MySQL索引?底层结构是什么?
尼恩是一位资深架构师,他在自己的读者交流群中分享了关于MySQL索引的重要知识点。索引是帮助MySQL高效获取数据的数据结构,主要作用包括显著提升查询速度、降低磁盘I/O次数、优化排序与分组操作以及提升复杂查询的性能。MySQL支持多种索引类型,如主键索引、唯一索引、普通索引、全文索引和空间数据索引。索引的底层数据结构主要是B+树,它能够有效支持范围查询和顺序遍历,同时保持高效的插入、删除和查找性能。尼恩还强调了索引的优缺点,并提供了多个面试题及其解答,帮助读者在面试中脱颖而出。相关资料可在公众号【技术自由圈】获取。
|
24天前
|
SQL 关系型数据库 MySQL
阿里面试:1000万级大表, 如何 加索引?
45岁老架构师尼恩在其读者交流群中分享了如何在生产环境中给大表加索引的方法。文章详细介绍了两种索引构建方式:在线模式(Online DDL)和离线模式(Offline DDL),并深入探讨了 MySQL 5.6.7 之前的“影子策略”和 pt-online-schema-change 方案,以及 MySQL 5.6.7 之后的内部 Online DDL 特性。通过这些方法,可以有效地减少 DDL 操作对业务的影响,确保数据的一致性和完整性。尼恩还提供了大量面试题和解决方案,帮助读者在面试中充分展示技术实力。
|
2月前
|
存储 关系型数据库 MySQL
贝壳面试:什么是回表?什么是索引下推?
在40岁老架构师尼恩的读者交流群中,近期有成员获得了得物、阿里、滴滴等一线互联网企业的面试机会,遇到了诸如“MySQL索引下推”、“回表查询”等重要面试题。由于缺乏准备,部分成员未能通过面试。为此,尼恩系统地整理了相关知识点,帮助大家提升技术实力,顺利通过面试。具体内容包括MySQL的架构、回表查询的工作原理及其性能问题、索引下推的底层原理和优势等。此外,尼恩还提供了优化建议和实战案例,帮助大家更好地理解和应用这些技术。尼恩的技术资料《尼恩Java面试宝典PDF》也收录了这些内容,供后续参考。
贝壳面试:什么是回表?什么是索引下推?
|
2月前
|
SQL 关系型数据库 MySQL
美团面试:mysql 索引失效?怎么解决? (重点知识,建议收藏,读10遍+)
本文详细解析了MySQL索引失效的多种场景及解决方法,包括破坏最左匹配原则、索引覆盖原则、前缀匹配原则、`ORDER BY`排序不当、`OR`关键字使用不当、索引列上有计算或函数、使用`NOT IN`和`NOT EXISTS`不当、列的比对等。通过实例演示和`EXPLAIN`命令分析,帮助读者深入理解索引失效的原因,并提供相应的优化建议。文章还推荐了《尼恩Java面试宝典》等资源,助力面试者提升技术水平,顺利通过面试。
|
4月前
|
缓存 NoSQL Redis
一天五道Java面试题----第九天(简述MySQL中索引类型对数据库的性能的影响--------->缓存雪崩、缓存穿透、缓存击穿)
这篇文章是关于Java面试中可能会遇到的五个问题,包括MySQL索引类型及其对数据库性能的影响、Redis的RDB和AOF持久化机制、Redis的过期键删除策略、Redis的单线程模型为何高效,以及缓存雪崩、缓存穿透和缓存击穿的概念及其解决方案。
|
4月前
|
索引
【面试题】串联所有单词的子串,找到所有符合条件的串联子串的起始索引
【面试题】串联所有单词的子串,找到所有符合条件的串联子串的起始索引
52 0
|
5月前
|
SQL 缓存 关系型数据库
面试题MySQL问题之实现覆盖索引如何解决
面试题MySQL问题之实现覆盖索引如何解决
59 1