MySQL为什么用B+树做索引存储结构?

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 小白晋级大师第1篇文章,开始写一些有深度的文章了

小白晋级大师第1篇文章,开始写一些有深度的文章了

先推荐一个数据结构可视化工具网站,用于B+树可视化查看

Data Structure Visualizations

1.png

面试技术岗的时候,面试官问你:

mysql索引底层用的是B+树结构,为什么不用B树、二叉树、红黑树呢?

这里其实就是比较各种数据结构的优劣点,最后说明为什么要用B+树结构;

假设数据查询场景:现在有100W的数据存储,查询其中的一条,应该用哪种存储结构呢?

二叉查找树

二叉查找树即有序二叉树,满足二叉树的性质,具有下面特点:

  • 任意节点左子树不为空时,左子树值小于根节点值
  • 右子树不为空时,右子树值大于根节点值;

依次存入数据,如果数据是递增的,则原二叉树退化为链表结构,如图

2.png

这种情况下,查询的时间复杂度就是O(n)了

AVL树

AVL树即平衡二叉查找树,通过平衡因子差值判断是否平衡,再用旋转来实现树的平衡。左右子树的树高差不超过1。在执行插入删除操作时,对不满足条件的子树,通过旋转保持平衡。性能开销主要在旋转操作上,由此可以知道AVL树适合查询多,插入删除少的场景

3.png

如图,我创建了一棵AVL树,感兴趣的可以在网站上看一下插入过程和旋转调整平衡的过程。

AVL树需要维持树的平衡,而维护这种平衡的开销要大于获得的收益,实际应用中不多

红黑树

红黑树是一种二叉查找树,每个节点新增一个存储位标记是red或black,通过任何一条从根节点到叶子节点路径上,各个节点着色方式的限制,确保没有一条路径比其他路径长2倍,红黑树性质:

  • 根节点是黑色,每个节点非红即黑;
  • 叶子节点都是黑色
  • 如果一个节点是红色,那它的子节点都是黑色
  • 任意节点到叶子节点的路径都包含相同数目的黑色节点

如图是红黑树的可视化:

4.png

AVL树和红黑树一样,随着记录数的增加,树的高度会不断增加,查询次数也会增加。

文章开头我们说的要查询100w条数据中的一条,就需要20次搜索,搜索效率不高,查询次数分析如下

$$ 2^{20} = 1048576 $$

B-树

即B树,和红黑树相比,B树的树高远远小于红黑树的高度。B树是为了和磁盘交互而设计的平衡多路查找树,操作效率有磁盘的访问次数决定,树高越小,磁盘I/O时间越短。

B树性质:

  • 非叶子节点上最多有M个子节点,且M>2;
  • 根节点的子节点数目为[2, M];
  • 每个节点存放至少M/2-1,至多M-1个关键字
  • 非叶子节点关键字数目=指向子节点的指针个数-1;
  • 所有叶子节点位于同一层

5.png

对比红黑树可以发现,每个节点上可以存储更多的数据,且树高固定,数据插入之后横向扩展。即每一次查询只需要搜索3次就行。搜索效率大大提高了。接着我们再来看看B+树

B+树

说一下B+树的性质:

  • 非叶子节点的子树指针 和 关键字 个数一样;
  • 非叶子节点的子树指针,指向闭区间[k[i], k[i+1]],即B树不允许关键字重复,B+树允许
  • 为所有叶子节点增加一个链指针;
  • 非叶子节点作为索引,叶子节点才存储关键字
  • 所有关键字存储在叶子节点

6.png

B+树比起B树的优点有:

  1. 只在叶子节点存储数据,16k的内存可以存下更多数据,降低树高
  2. 冗余索引,方便查找;
  3. B+树叶子节点增加了双向链表,方便范围查询;

于是,回到开头的问题,100W的数据,B+树只需要3次或4次I/O查询就能定位到了,且相比较B树,B+树更适合复杂的查询场景,如范围查询。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5天前
|
SQL 关系型数据库 MySQL
深入解析MySQL的EXPLAIN:指标详解与索引优化
MySQL 中的 `EXPLAIN` 语句用于分析和优化 SQL 查询,帮助你了解查询优化器的执行计划。本文详细介绍了 `EXPLAIN` 输出的各项指标,如 `id`、`select_type`、`table`、`type`、`key` 等,并提供了如何利用这些指标优化索引结构和 SQL 语句的具体方法。通过实战案例,展示了如何通过创建合适索引和调整查询语句来提升查询性能。
44 9
|
10天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
50 18
|
2天前
|
存储 Oracle 关系型数据库
索引在手,查询无忧:MySQL索引简介
MySQL 是一款广泛使用的关系型数据库管理系统,在2024年5月的DB-Engines排名中得分1084,仅次于Oracle。本文介绍MySQL索引的工作原理和类型,包括B+Tree、Hash、Full-text索引,以及主键、唯一、普通索引等,帮助开发者优化查询性能。索引类似于图书馆的分类系统,能快速定位数据行,极大提高检索效率。
24 8
|
9天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
17 7
|
8天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化与慢查询优化:原理与实践
通过本文的介绍,希望您能够深入理解MySQL索引优化与慢查询优化的原理和实践方法,并在实际项目中灵活运用这些技术,提升数据库的整体性能。
27 5
|
13天前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
89 15
|
7天前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。
|
14天前
|
关系型数据库 MySQL 数据库
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。
|
18天前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
26天前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据