Mysql从入门到入神之(四)B+树索引

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 前言文本已收录至我的GitHub仓库,欢迎Star:github.com/bin39232820…种一棵树最好的时间是十年前,其次是现在

絮叨


我们继续来探索mysql。前面我们了解了mysql的索引的一些基础知识,今天我们来康康B+树索引

来复习一下一下昨天的 首先是InnoDB的页存储结构,我们知道 多个不同的页组成的是一个双向链表,而每个页里面的数据行会按主键的大小组成一个单向链表,并且每4到8个数据组成一个槽,每个槽存储在pageDirectoy里面 ,当我们要查询页的行数据的时候,可以先定位到页,然后用2分法定位到槽,然后遍历槽,来定位到当前行的数据。(大佬画的图,大家可以好好理解一下)

其中页a、页b、页c ... 页n 这些页可以不在物理结构上相连,只要通过双向链表相关联即可。


没有索引下的查找数据的方式


  • 第一种,查询的是id主键的一个确定值,这个好像还不是那么难,首先遍历所有的页,定位到页,从页里面找到槽,从槽里面找到当前行,所以这样说的话,这种如果页数比较多的话,查询也会很慢
  • 第二种,也就是我们说的全表扫描,一个个去遍历,最后来找到这一行数据,因为这种查询的会非常的慢,所以呢我们的索引就派上用场了


InnoDB中的索引方案

  • InnoDB是使用页来作为管理存储空间的基本单位,也就是最多能保证16KB的连续存储空间,而随着表中记录数量的增多,需要非常大的连续的存储空间才能把所有的目录项都放下,这对记录数量非常多的表是不现实的。
  • 我们时常会对记录进行增删,假设我们把页中的记录都删除了,页也就没有存在的必要了,那意味着目录项也就没有存在的必要了,这就需要把目录项后的目录项都向前移动一下,这种牵一发而动全身的设计不是什么好主意~


它是怎么来实现 ,页记录 和用户用户记录 ,它每个行数据中又一个record_type 这个既可以表示,页记录 和用户用户记。它有以下的4种取值方式

  • 0:普通的用户记录
  • 1:目录项记录
  • 2:最小记录
  • 3:最大记录


不论是存放用户记录的数据页,还是存放目录项记录的数据页,我们都把它们存放到B+树这个数据结构中了,所以我们也称这些数据页为节点。从图中可以看出来,我们的实际用户记录其实都存放在B+树的最底层的节点上,这些节点也被称为叶子节点或叶节点,其余用来存放目录项的节点称为非叶子节点或者内节点,其中B+树最上边的那个节点也称为根节点。


聚簇索引


上面的B+数 本身就是一个主键索引 我们也叫聚簇索引,它有两个特点

  • 使用记录主键值的大小进行记录和页的排序,这包括三个方面的含义:
  • 存放目录项记录的页分为不同的层次,在同一层次中的页也是根据页中目录项记录的主键大小顺序排成一个双向链表。 (树的每一层都是一个双向链表)
  • 各个存放用户记录的页也是根据页中用户记录的主键大小顺序排成一个双向链表。(最后一层的用户数据层也是一个双向链表)
  • 页内的记录是按照主键的大小顺序排成一个单向链表。(页内是一个单休链表,和一个有着顺序的槽目录)
  • B+树的叶子节点存储的是完整的用户记录。所谓完整的用户记录,就是指这个记录中存储了所有列的值(包括隐藏列)。

我们把具有这两种特性的B+树称为聚簇索引,所有完整的用户记录都存放在这个聚簇索引的叶子节点处。这种聚簇索引并不需要我们在MySQL语句中显式的使用INDEX语句去创建(后边会介绍索引相关的语句),InnoDB存储引擎会自动的为我们创建聚簇索引。另外有趣的一点是,在InnoDB存储引擎中,聚簇索引就是数据的存储方式(所有的用户记录都存储在了叶子节点),也就是所谓的索引即数据,数据即索引。


二级索引


大家有木有发现,上边介绍的聚簇索引只能在搜索条件是主键值时才能发挥作用,因为B+树中的数据都是按照主键进行排序的。那如果我们想以别的列作为搜索条件该咋办呢?难道只能从头到尾沿着链表依次遍历记录么?

不,我们可以多建几棵B+树,不同的B+树中的数据采用不同的排序规则。比方说我们用c2列的大小作为数据页、页中记录的排序规则,再建一棵B+树,效果如下图所示:

其实这个呢,和上面的也差不都就是说这个说子节点存放的是我们的索引列+我们的主键的数据。如果我们想要当前那一行的所有数据的话,我们是需要做一次回表操作的。


联合索引



我们也可以同时以多个列的大小作为排序规则,也就是同时为多个列建立索引,比方说我们想让B+树按照c2和c3列的大小进行排序,这个包含两层含义:

  • 先把各个记录和页按照c2列进行排序。
  • 在记录的c2列相同的情况下,采用c3列进行排序

类似于这种,就是先把第一个列做好索引,然后再排第二个列,必须按先后顺序来,所以我们所说的前缀索引就是这样来的。


索引的代价


在熟悉了B+树索引原理之后,本篇文章的主题是唠叨如何更好的使用索引,虽然索引是个好东西,可不能乱建,在介绍如何更好的使用索引之前先要了解一下使用这玩意儿的代价,它在空间和时间上都会拖后腿:

  • 空间上的代价
  • 这个是显而易见的,每建立一个索引都要为它建立一棵B+树,每一棵B+树的每一个节点都是一个数据页,一个页默认会占用16KB的存储空间,一棵很大的B+树由许多数据页组成,那可是很大的一片存储空间呢。
  • 时间上的代价
  • 每次对表中的数据进行增、删、改操作时,都需要去修改各个B+树索引。而且我们讲过,B+树每层节点都是按照索引列的值从小到大的顺序排序而组成了双向链表。不论是叶子节点中的记录,还是内节点中的记录(也就是不论是用户记录还是目录项记录)都是按照索引列的值从小到大的顺序而形成了一个单向链表。而增、删、改操作可能会对节点和记录的排序造成破坏,所以存储引擎需要额外的时间进行一些记录移位,页面分裂、页面回收啥的操作来维护好节点和记录的排序。如果我们建了许多索引,每个索引对应的B+树都要进行相关的维护操作,这还能不给性能拖后腿么?


创建高性能索引原则


独立的列

什么意思呢?就是我们where = 后面的条件,必须是独立的一个列,不能是id+1,这种计算,所以有一个原则就是始终将索引列单独放在比较符合的一侧。


前缀索引

比如一个字符串很长,然后你要给这个字段建立索引,如果说他们前几个字段的识别度很高了话,就建议建立一个前缀索引。这样就可以大大的节省索引空间


多列索引

一个常见的错误就是,给每个列都建立一个索引,这样是错误的,还有就是建立联合索引的时候的顺序是随便填的,这种方式也是错误的。如果你用explain 关键字看到了 索引合并的信息,就说明你这个索引看是否能否优化。


选择合适的索引顺序

假设你有2个列要建立组合索引,那么这个组合索引的列的字段到底是哪个先 哪个后呢?这个是没有一定的标准的,但是默认的条件是如果你有数量少的字段尽量是放到前面,在不考虑,分组的条件下,这种情况确实是比较快的。


覆盖索引

覆盖索引的意思就是我们建立索引的时候,我把需要查询的条件一起建立一个联合索引,那么查询这些数据的时候,我们就不需要回表操作了。


尽量用索引扫描来排序

如果explain中type的结果是index,就说明mysql使用了索引扫描来做排序,


未使用的索引

如果发现有些索引是一直不会使用的索引,建议删除它。


不可以使用索引进行排序的几种情况

  • ASC、DESC混用 对于使用联合索引进行排序的场景,我们要求各个排序列的排序顺序是一致的,也就是要么各个列都是ASC规则排序,要么都是DESC规则排序。
  • WHERE子句中出现非排序使用到的索引列


总结


  • 索引并不是想建就建,凡事都是有代价的吗,我们只能说权衡利弊
  • 索引通用的一些场景
  • 等值查询
  • 匹配组合索引左边的索引
  • 匹配组合索引的左边的索引的范围查询
  • 匹配等值查询和范围查询
  • 分组查询
  • 排序
  • 索引的一些注意事项
  • 只为搜索,分组,排序的列建立索引
  • 只为数据的识别度高的列建立索引(例如性别就不建议建立索引)
  • 对于字符串的列,如果它的能建立前缀索引,最好就建立前缀索引
  • 为了让页尽量减少页分裂的情况,最好给主键建立自增
  • 删除不必要的索引
  • 如果能用覆盖索引的尽量用覆盖索引,减少回表的次数。


结尾


我们下章继续再战。 文章部分内容出自 MySQL 是怎样运行的:从根儿上理解 MySQL,

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
6月前
|
存储 SQL 关系型数据库
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
|
6月前
|
存储 关系型数据库 MySQL
MySQL数据库索引的数据结构?
MySQL中默认使用B+tree索引,它是一种多路平衡搜索树,具有树高较低、检索速度快的特点。所有数据存储在叶子节点,非叶子节点仅作索引,且叶子节点形成双向链表,便于区间查询。
205 4
|
6月前
|
存储 SQL 关系型数据库
MySQL 核心知识与索引优化全解析
本文系统梳理了 MySQL 的核心知识与索引优化策略。在基础概念部分,阐述了 char 与 varchar 在存储方式和性能上的差异,以及事务的 ACID 特性、并发事务问题及对应的隔离级别(MySQL 默认 REPEATABLE READ)。 索引基础部分,详解了 InnoDB 默认的 B+tree 索引结构(多路平衡树、叶子节点存数据、双向链表支持区间查询),区分了聚簇索引(数据与索引共存,唯一)和二级索引(数据与索引分离,多个),解释了回表查询的概念及优化方法,并分析了 B+tree 作为索引结构的优势(树高低、效率稳、支持区间查询)。 索引优化部分,列出了索引创建的六大原则
157 2
|
7月前
|
存储 关系型数据库 MySQL
MySQL覆盖索引解释
总之,覆盖索引就像是图书馆中那些使得搜索变得极为迅速和简单的工具,一旦正确使用,就会让你的数据库查询飞快而轻便。让数据检索就像是读者在图书目录中以最快速度找到所需信息一样简便。这样的效率和速度,让覆盖索引成为数据库优化师傅们手中的尚方宝剑,既能够提升性能,又能够保持系统的整洁高效。
186 9
|
8月前
|
机器学习/深度学习 关系型数据库 MySQL
对比MySQL全文索引与常规索引的互异性
现在,你或许明白了这两种索引的差异,但任何技术决策都不应仅仅基于理论之上。你可以创建你的数据库实验环境,尝试不同类型的索引,看看它们如何影响性能,感受它们真实的力量。只有这样,你才能熟悉它们,掌握什么时候使用全文索引,什么时候使用常规索引,以适应复杂多变的业务需求。
213 12
|
4月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
177 3
|
4月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
4月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
864 152
|
5月前
|
存储 运维 关系型数据库
从MySQL到云数据库,数据库迁移真的有必要吗?
本文探讨了企业在业务增长背景下,是否应从 MySQL 迁移至云数据库的决策问题。分析了 MySQL 的优势与瓶颈,对比了云数据库在存储计算分离、自动化运维、多负载支持等方面的优势,并提出判断迁移必要性的五个关键问题及实施路径,帮助企业理性决策并落地迁移方案。
|
4月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。

推荐镜像

更多