MySQL索引底层实现原理(B树和B+树)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: MySQL索引底层实现原理(B树和B+树)

一、B-树索引

1. 理论部分

数据库索引是存储在磁盘上的,当数据量大时,就不能把整个索引全部加载到内存了,只能逐一加载每一个磁盘块(对应索引树的节点),索引树越低,越矮胖,磁盘IO次数就少

MySQL支持两种索引,一种的B-树索引,一种是哈希索引,B-树和哈希表在数据查询时的效率是非常高的。这里我们主要讨论一下MySQL InnoDB存储引擎,基于B-树(但实际上MySQL采用的是B+树结构)的索引结构。

B-树是一种m阶平衡树,叶子节点都在同一层,由于每一个节点存储的数据量比较大,所以整个B-树的层数是非常低的,基本上不超过三层。

由于磁盘的读取也是按block块操作的(内存是按page页面操作的,一般是16k,是内存页面的整数倍,读1块,刚好放到4个内存页面上),因此B-树的节点大小一般设置为和磁盘块大小一致,这样一个B-树节点,就可以通过一次磁盘I/O把一个磁盘块的数据全部存储下来,所以当使用B-树存储索引的时候,磁盘I/O的操作次数是最少的(MySQL的读写瓶颈,主要集中在磁盘I/O上

数据和索引都是放在磁盘上的,MySQL server得通过操作系统把磁盘上的数据加载到内存中。也就是说,运行起来的进程要访问索引,需要花费磁盘I/O,先把数据、索引读到内存中,而磁盘I/O很影响效率。

在C/C++中,如果我们new/malloc向内存申请4个字节,实际上不可能只拿4个字节,内存管理是按页面4K为大小单位的,操作系统相当于批发站,它批发内存是以页面为单位的,我们申请4个字节,实际上我们向内核kernel申请,内核是按页面给我们分配的。按页面分配以后,但是我们的应用程序只需要4个字节,还剩下的字节就被C函数库libc.so或者 libc++.so库的ptmalloc(缓存)tcmalloc来管理,相当于2个函数,负责管理剩下的空闲的字节,等你下次还malloc申请字节的时候,CPU就不用通过中断切换到内核态,直接在用户空间,从C库分配出来就可以了。等用光了,才向内核申请。

假设用AVL树存储20000000条数据,需要25层

image.png

在最坏的情况下,所有的数据都不在一个磁盘块上,读取所有的数据到索引树上,OS需要读取25次磁盘块。我们利用索引读取一条数据,最多需要查找25次

2. B树

image.png

涉及到磁盘到内存的一些读取,我们一般都采用B树结构。B树是平衡树,所有叶子节点都同在一层,B树是m阶平衡树(就是多叉AVL树),一般取值300-500。用B树来存储2千万的索引,假如m取500:

image.png

最多3层,最多3次磁盘I/O就可以了

在真实项目中,由于数据库表的数据数量会有所控制,构建的B+树也都不会超过3层,B树则可能会有4-5层

我们在student表中把uid设置为主键,会自动创建索引,当我们进行查询查询操作的时候


select * from student where uid=3;

使用索引查找过程:MySQL应用程序一看过滤条件的属性有索引,则先请求存储引擎,然后请求kernel,从磁盘上读uid的索引文件到内存上,然后拿读取的索引的数据构建B树来加速搜索

黄色的data表示key索引所在的这一行的数据,data存储的是数据本身内容,还是数据在磁盘上的地址?
  • 对于MyISAM而言,*.MYD*.MYI分别存储数据和索引,即数据和索引分开存放,所以在索引树上存放的只有实际数据在磁盘上的地址,而没有数据本身。
  • 对于InnoDB而言,*.idb存放的是数据和索引,数据和索引一起存放, 所以索引树上存放的就是数据本身。这就解释了为什么我们create table的时候不设置主键,InnoDB会自动生成主键,就是因为不建立索引就没有索引树,数据就没有地方存放。
关于操作系统从磁盘读取索引文件到内存中的几个问题
  1. 索引文件在磁盘上存储,磁盘的索引文件中的索引就是已经按B+树构建好的吗?

答:那肯定不是,磁盘上只是存储的二进制文件,读取索引文件的时候,在内存上构建一颗B+树存放磁盘上读来的索引数据。数据结构都是在内存上表示的,没有说磁盘上构建个数据结构。

  1. 操作系统把磁盘的索引文件读到内存上构建B+树,如果磁盘的索引文件太大,内存读不下怎么办?那磁盘IO怎么算次数,现在不是都在内存上的B+树搜索读取数据了吗?

答:先读索引文件的前几个字节,里面有第一个要读取的根节点数据在索引文件中的偏移量,读取根节点后,根据你要搜索的数据进行搜索,看是接着加载他的哪个孩子节点。  包括根节点的每一个节点,都存储了索引key值和它的孩子节点在磁盘上的位置偏移量信息。

这样每一次搜索,最多只从根节点沿着某个路径加载到叶子节点上,而不可能是整个索引文件都加载到内存

  1. 在B树和AVL树上搜索一个数据都是O(log2N),为什么还要使用B树?

答:我们读取数据总共分为两步:花费磁盘I/O把数据从硬盘读到内存,在内存上构建B树,然后到B树上搜索。虽然在内存上搜索的时间都是O(log2N),但B树高度更低,花费的磁盘I/O更少,速度更快

问题总结:索引文件在磁盘上是二进制的,但是文件中存储了根节点的key值和这个节点的整个的偏移量,还存储的它的左右孩子的key值和整个节点的偏移量。操作系统从磁盘的索引文件中,一次读取一个block块的大小(最好是一个节点大小)到内存中构建B+树,然后在节点中二分搜索元素,如果发现值大于根节点的所有数据值,那么就继续从磁盘的索引文件中把该节点的右孩子节点加载到内存上,然后进行二分搜索查找,以此类推下去。

举个搜索的例子


select * from student where name = "zhangsan";

如果name没有索引,在MyISAM中(索引和数据分开存放),就是把整张表过1遍,效率非常低。加个limit 1,就是找到第一个符合条件的数据,就会停止查找,效率提高一些

如果我们给name建索引,当我们再去执行这个select语句的时候,MySQL server就知道name有索引,直接加载name的索引文件,花费磁盘I/O,把磁盘上的索引(name)加载到内存中来,以二分查找的方式(会比较索引的大小关系)构建成B-树。

B树的缺点

每个节点中有key(索引),也有data(对于MyISAM来说是数据的地址,对于InnoDB来说是数据本身),但是每一个节点的存储空间是有限的,data占用较大时,会导致每个节点存储的key就会减少(即树的分支变少),同样会导致B树的高度较大,磁盘IO次数花费增大,效率降低!!!

三、B+树

image.png

B+树特点

  1. 非叶子节点相当于是叶子节点的索引,不存储数据,叶子节点用于存储关键字以及数据。  即每个B+树非叶子节点相对于B树的叶子节点能存储更多的key,这样树的高度就更低,花费的磁盘I/O就更少,查找更快。
  2. 由于数据全部存在于叶子节点,所以无论查找哪个数据,花费的磁盘I/O次数都是一样的,查找数据耗费的时间比较稳定
  3. 叶子节点被串在链表中,形成了一个有序链表。做范围搜索和整表遍历的时候直接遍历这个有序链表即可,不用遍历平衡树

MySQL最终为什么要采用B+树存储索引结构?

  1. 在B树中搜索时,离根节点近的节点找的就快,离根节点远的节点找的就慢,查找数据花费的时间不稳定。B+树所有的数据都在叶子节点,查找数据花费的时间稳定
  2. B树的每一个内部节点,都存了key和对应的数据。而B+树的非叶子节点只存关键字,不存数据,B+树的叶子节点存放key和数据。节点的大小是一个块的大小,在节点大小相同的情况下,由于B+树的非叶子节点不存储数据,存储的关键字(key)会远远多于B树,因此,B+树的高度要小于B树,使用的磁盘I/O次数少,查询更快。
  3. 节点内存在的索引值越多,相邻索引值之间的区间就会越小,查找范围越小,查找的就越容易。而B树非叶子节点相邻索引值之间的区间比B+树要大
  4. B树不方便做范围搜索(where age between 10 and 20),整表遍历也不方便。而B+树将所有的叶子节点都串在链表上,做区间搜索以及整表遍历比平衡树快

当我们回答问题的时候,不要1 2 3这样把答案背出来,这样效果是很差的,我们回答索引的底层原理的时候可以这样回答:

当我们select * from student where name="zhangsan"的时候,数据库引擎会检查name字段有没有索引

若没有索引数据库引擎会做整表搜索,效率是比较低的。

如果有索引,数据库引擎会向内核申请从磁盘上读取索引文件到内存,一个节点一个节点在内存上构建B+树,一个节点对应一次磁盘I/O。非叶子节点只存关键字key,所有的key和data都会出现在叶子节点,所以用B+树构建索引树,会以最少的磁盘I/O构建出来。其次搜索的时候是以二分的方式进行搜索的,O(log2N)的效率还是很高的。甚至还可以解释一下为什么使用B+树而不使用B树。


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
28天前
|
存储 关系型数据库 MySQL
阿里面试:为什么要索引?什么是MySQL索引?底层结构是什么?
尼恩是一位资深架构师,他在自己的读者交流群中分享了关于MySQL索引的重要知识点。索引是帮助MySQL高效获取数据的数据结构,主要作用包括显著提升查询速度、降低磁盘I/O次数、优化排序与分组操作以及提升复杂查询的性能。MySQL支持多种索引类型,如主键索引、唯一索引、普通索引、全文索引和空间数据索引。索引的底层数据结构主要是B+树,它能够有效支持范围查询和顺序遍历,同时保持高效的插入、删除和查找性能。尼恩还强调了索引的优缺点,并提供了多个面试题及其解答,帮助读者在面试中脱颖而出。相关资料可在公众号【技术自由圈】获取。
|
26天前
|
存储 关系型数据库 MySQL
MySQL主从复制原理和使用
本文介绍了MySQL主从复制的基本概念、原理及其实现方法,详细讲解了一主两从的架构设计,以及三种常见的复制模式(全同步、异步、半同步)的特点与适用场景。此外,文章还提供了Spring Boot环境下配置主从复制的具体代码示例,包括数据源配置、上下文切换、路由实现及切面编程等内容,帮助读者理解如何在实际项目中实现数据库的读写分离。
MySQL主从复制原理和使用
|
19天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
89 1
|
26天前
|
SQL 关系型数据库 MySQL
Mysql中搭建主从复制原理和配置
主从复制在数据库管理中广泛应用,主要优点包括提高性能、实现高可用性、数据备份及灾难恢复。通过读写分离、从服务器接管、实时备份和地理分布等机制,有效增强系统的稳定性和数据安全性。主从复制涉及I/O线程和SQL线程,前者负责日志传输,后者负责日志应用,确保数据同步。配置过程中需开启二进制日志、设置唯一服务器ID,并创建复制用户,通过CHANGE MASTER TO命令配置从服务器连接主服务器,实现数据同步。实验部分展示了如何在两台CentOS 7服务器上配置MySQL 5.7主从复制,包括关闭防火墙、配置静态IP、设置域名解析、配置主从服务器、启动复制及验证同步效果。
Mysql中搭建主从复制原理和配置
|
30天前
|
存储 关系型数据库 MySQL
如何在MySQL中进行索引的创建和管理?
【10月更文挑战第16天】如何在MySQL中进行索引的创建和管理?
61 1
|
20天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第26天】数据库作为现代应用系统的核心组件,其性能优化至关重要。本文主要探讨MySQL的索引策略与查询性能调优。通过合理创建索引(如B-Tree、复合索引)和优化查询语句(如使用EXPLAIN、优化分页查询),可以显著提升数据库的响应速度和稳定性。实践中还需定期审查慢查询日志,持续优化性能。
47 0
|
10天前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
25 1
|
12天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
28 4
|
1月前
|
存储 关系型数据库 MySQL
Mysql(4)—数据库索引
数据库索引是用于提高数据检索效率的数据结构,类似于书籍中的索引。它允许用户快速找到数据,而无需扫描整个表。MySQL中的索引可以显著提升查询速度,使数据库操作更加高效。索引的发展经历了从无索引、简单索引到B-树、哈希索引、位图索引、全文索引等多个阶段。
63 3
Mysql(4)—数据库索引
|
21天前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
64 2