MySQL为什么用B+树做索引存储结构?

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 小白晋级大师第1篇文章,开始写一些有深度的文章了

小白晋级大师第1篇文章,开始写一些有深度的文章了

先推荐一个数据结构可视化工具网站,用于B+树可视化查看

Data Structure Visualizations

1.png

面试技术岗的时候,面试官问你:

mysql索引底层用的是B+树结构,为什么不用B树、二叉树、红黑树呢?

这里其实就是比较各种数据结构的优劣点,最后说明为什么要用B+树结构;

假设数据查询场景:现在有100W的数据存储,查询其中的一条,应该用哪种存储结构呢?

二叉查找树

二叉查找树即有序二叉树,满足二叉树的性质,具有下面特点:

  • 任意节点左子树不为空时,左子树值小于根节点值
  • 右子树不为空时,右子树值大于根节点值;

依次存入数据,如果数据是递增的,则原二叉树退化为链表结构,如图

2.png

这种情况下,查询的时间复杂度就是O(n)了

AVL树

AVL树即平衡二叉查找树,通过平衡因子差值判断是否平衡,再用旋转来实现树的平衡。左右子树的树高差不超过1。在执行插入删除操作时,对不满足条件的子树,通过旋转保持平衡。性能开销主要在旋转操作上,由此可以知道AVL树适合查询多,插入删除少的场景

3.png

如图,我创建了一棵AVL树,感兴趣的可以在网站上看一下插入过程和旋转调整平衡的过程。

AVL树需要维持树的平衡,而维护这种平衡的开销要大于获得的收益,实际应用中不多

红黑树

红黑树是一种二叉查找树,每个节点新增一个存储位标记是red或black,通过任何一条从根节点到叶子节点路径上,各个节点着色方式的限制,确保没有一条路径比其他路径长2倍,红黑树性质:

  • 根节点是黑色,每个节点非红即黑;
  • 叶子节点都是黑色
  • 如果一个节点是红色,那它的子节点都是黑色
  • 任意节点到叶子节点的路径都包含相同数目的黑色节点

如图是红黑树的可视化:

4.png

AVL树和红黑树一样,随着记录数的增加,树的高度会不断增加,查询次数也会增加。

文章开头我们说的要查询100w条数据中的一条,就需要20次搜索,搜索效率不高,查询次数分析如下

$$ 2^{20} = 1048576 $$

B-树

即B树,和红黑树相比,B树的树高远远小于红黑树的高度。B树是为了和磁盘交互而设计的平衡多路查找树,操作效率有磁盘的访问次数决定,树高越小,磁盘I/O时间越短。

B树性质:

  • 非叶子节点上最多有M个子节点,且M>2;
  • 根节点的子节点数目为[2, M];
  • 每个节点存放至少M/2-1,至多M-1个关键字
  • 非叶子节点关键字数目=指向子节点的指针个数-1;
  • 所有叶子节点位于同一层

5.png

对比红黑树可以发现,每个节点上可以存储更多的数据,且树高固定,数据插入之后横向扩展。即每一次查询只需要搜索3次就行。搜索效率大大提高了。接着我们再来看看B+树

B+树

说一下B+树的性质:

  • 非叶子节点的子树指针 和 关键字 个数一样;
  • 非叶子节点的子树指针,指向闭区间[k[i], k[i+1]],即B树不允许关键字重复,B+树允许
  • 为所有叶子节点增加一个链指针;
  • 非叶子节点作为索引,叶子节点才存储关键字
  • 所有关键字存储在叶子节点

6.png

B+树比起B树的优点有:

  1. 只在叶子节点存储数据,16k的内存可以存下更多数据,降低树高
  2. 冗余索引,方便查找;
  3. B+树叶子节点增加了双向链表,方便范围查询;

于是,回到开头的问题,100W的数据,B+树只需要3次或4次I/O查询就能定位到了,且相比较B树,B+树更适合复杂的查询场景,如范围查询。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
5月前
|
存储 SQL 关系型数据库
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
mysql底层原理:索引、慢查询、 sql优化、事务、隔离级别、MVCC、redolog、undolog(图解+秒懂+史上最全)
|
5月前
|
存储 关系型数据库 MySQL
MySQL数据库索引的数据结构?
MySQL中默认使用B+tree索引,它是一种多路平衡搜索树,具有树高较低、检索速度快的特点。所有数据存储在叶子节点,非叶子节点仅作索引,且叶子节点形成双向链表,便于区间查询。
182 4
|
5月前
|
存储 SQL 关系型数据库
MySQL 核心知识与索引优化全解析
本文系统梳理了 MySQL 的核心知识与索引优化策略。在基础概念部分,阐述了 char 与 varchar 在存储方式和性能上的差异,以及事务的 ACID 特性、并发事务问题及对应的隔离级别(MySQL 默认 REPEATABLE READ)。 索引基础部分,详解了 InnoDB 默认的 B+tree 索引结构(多路平衡树、叶子节点存数据、双向链表支持区间查询),区分了聚簇索引(数据与索引共存,唯一)和二级索引(数据与索引分离,多个),解释了回表查询的概念及优化方法,并分析了 B+tree 作为索引结构的优势(树高低、效率稳、支持区间查询)。 索引优化部分,列出了索引创建的六大原则
134 2
|
6月前
|
存储 关系型数据库 MySQL
MySQL覆盖索引解释
总之,覆盖索引就像是图书馆中那些使得搜索变得极为迅速和简单的工具,一旦正确使用,就会让你的数据库查询飞快而轻便。让数据检索就像是读者在图书目录中以最快速度找到所需信息一样简便。这样的效率和速度,让覆盖索引成为数据库优化师傅们手中的尚方宝剑,既能够提升性能,又能够保持系统的整洁高效。
167 9
|
7月前
|
机器学习/深度学习 关系型数据库 MySQL
对比MySQL全文索引与常规索引的互异性
现在,你或许明白了这两种索引的差异,但任何技术决策都不应仅仅基于理论之上。你可以创建你的数据库实验环境,尝试不同类型的索引,看看它们如何影响性能,感受它们真实的力量。只有这样,你才能熟悉它们,掌握什么时候使用全文索引,什么时候使用常规索引,以适应复杂多变的业务需求。
184 12
|
3月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
136 3
|
3月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
4月前
|
存储 运维 关系型数据库
从MySQL到云数据库,数据库迁移真的有必要吗?
本文探讨了企业在业务增长背景下,是否应从 MySQL 迁移至云数据库的决策问题。分析了 MySQL 的优势与瓶颈,对比了云数据库在存储计算分离、自动化运维、多负载支持等方面的优势,并提出判断迁移必要性的五个关键问题及实施路径,帮助企业理性决策并落地迁移方案。
|
3月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。
|
3月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。

推荐镜像

更多