MySQL底层存储B-Tree和B+Tree原理分析

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: MySQL底层存储B-Tree和B+Tree原理分析

1.B-Tree的原理分析

(1)什么是B-Tree

  • B-树,全称是 Balanced Tree,是一种多路平衡查找树。
  • 一个节点包括多个key (数量看业务),具有M阶的B树,每个节点最多有M-1个Key。
  • 节点的key元素个数就是指这个节点能够存储几个数据。
  • 每个节点最多有m个子节点,最少有M/2个子节点,其中M>2。
  • 数据集合分布在整个树里面,叶子节点和非叶子节点都存储数据;类似在整个树里面做一次二分查找。
  • B 树相对于平衡二叉树,每个节点存储了更多的键值(key)和数据(data)。
  • 实际业务中B树的阶数一般大于100,存储大量数据,B树高度也会很低,查询效率会更高。
  • 备注
  • 每个节点拥有最多的子节点,子节点的个数一般称为阶。
  • 阶:m阶是代表每个节点最多有m个分支(子树)。
  • 树的度:这棵树里面节点最大的度。
  • 节点的度:当前节点有几个子节点。



e6b63bcda291464baac2f8821759b228.jpg

(2)B树插入原理

  • 每个节点的数据都是顺序存储,具有M阶的B树,树的阶数表示每个结点最多可以有多少个子结点


9ddb842faada47b3a8613aa909352042.gif

(3)B树的应用场景

  • 在数据库中,B树用来维护索引,用来提高查询效率,一个节点可以存储整个页(即磁盘块)
  • 在文件系统中,B树用来存储文件的目录信息,提高文件的访问效率
  • 在操作系统中,B树可以用来存储内存管理信息,提高内存的分配效率
  • (4)思考:3层的B树,阶数为1024,最多容纳多少个元素?
  • B树的阶数表示每个结点最多可以有多少个子结点,因此B树的阶数为1024,表示每个结点最多可以有1024个子结点
  • 由于B树的3层,因此根结点可以有1024个子结点,每个子结点又可以有1024个子结点

因此一个3层的B树,阶数为1024,B树的每一层的节点数都是阶数的幂次方

计算总容量 把每一层的节点数相加 即10241+10242+1024^3 大约是 11亿个节点,假如每个节点放一个元素就是11亿个

所以在10亿个数据中找目标值,常规小于3次磁盘IO即可找到目标值,比平衡二叉树的30次提升了不少

  • 平衡二叉树的高度就等于每次查询数据时磁盘 IO 操作的次数。
  • 10亿的数据量,log2(N)约等于30次磁盘IO,
  • log2(N) 相当于2的多少次方(立方)等于N,例:log2 (8)= 3
  • 2的30次方=1073741824,所以就是30次磁盘IO

2.B+Tree的原理分析

(1)什么是B+Tree

  • 是B树的一种变形形式,B+树上的叶子结点存储关键字以及相应记录的地址,同等存储空间下比B-Tree存储更多key
  • 非叶子节点不对关键字记录的指针进行保存,只进行数据索引 , 树的层级会更少 , 所有叶子节点都在同一层,
  • 叶子节点的关键字从小到大有序排列,叶子节点之间用指针连接, 构成有序链表(稠密索引)
  • B+树上每个非叶子节点之间是一个双向链表进行链接,而叶子节点中的数据都是使用单向链表链接

查找特点

  • 当索引部分某个结点的关键字与所查的关键字相等时,并不停止查找
  • 继续沿着关键字的指针向下,每次查询必须到叶子节点才能真正获取到相关数据
  • B+Tree叶子节点相连接,对树的遍历就是只需要 一次线性遍历叶子节点
  • 由于叶子节点的数据是顺序排列,方便区间查找
  • 在B+树完成范围查找,排序查找,分组查找,去重查找 比B树效率也比较高

5cd366f34efb4ebf88673535e02ff8cd.jpg

(2)B+Tree插入流程解析

cf3ebb7cf9f645db8a3466f8319d2363.gif


总结

  • B树和B+树的最大区别在于非叶子节点是否存储数据
  • B+树非叶子节点只是当索引使用,同等空间下B+树存储更多key
  • B树,非叶子节点和叶子节点都会存储数据,找到对应节点就有对应的数据
  • B+树, 只有叶子节点才会存储数据,存储的数据都是在一行上,找到非叶子节点的key,还需要继续找到叶子节点才可以获取数据
  • B树的节点包括了key-value,所以找到对应的key即可找到对应的value,不用在继续寻找
  • 两种树各有优缺点和应用场景

3.B+Tree树应用之Mysql索引底层原理剖析

  • 背景
  • Mysql数据库是大家用最多的,查询是最高频使用的操作
  • 在多数数据库的设计里面,会用B-Tree或B+Tree做索引提高查询效率
  • 基于一张数据库的表数据进行查询(类似mysql的user表)
  • 构建索引:id用做key,然后data是数据的存储地址
内存地址 id phone name Age
0xFS 843 13820835467 张三 43
0xER 984 15738235423 李四 20
0x32 4212 12152354223 王五 18
0x93 1000 12152356324 赵六 30
0xAP 2341 18735622097 李祥 19
0xSQ … 1千万条数据

精确查找 id=2341的数据 select * from user where id = 2341

  • 未使用索引
  • 自上而下查找数据,一行行遍历,5次才找到数据
  • 使用索引
  • id建立主键索引(B+Tree结构),对应的数据存储数据的地址,2次找到数据,且数据量越多效果越明显
  • 根节点是常驻内存的,不需要进行IO操作
  • 范围查找 id>1000 和 id < 4212 的用户
  • 未使用索引
  • 自上而下查找数据,一行行遍历
  • 使用索引
  • id建立主键索引(B+Tree结构),由于本身是有序链表,所以顺序查找即可
  • Mysql的InnoDB中的索引结构与MyISAM的索引结构的区别
  • InnoDB引擎,表数据文件按B+Tree组织的,叶节点data域保存完整行数据, 树上的key就是主键, 以主键构建的B+树索引
  • 这种索引叫做聚集索引(聚簇索引 clustered index)
  • 聚簇索引一般为主键索引,而主键一个表中只能有一个,所以聚集索引一个表只能有一个
  • 聚簇索引叶子节点存储的是行数据,而非聚簇索引叶子节点存储的是聚簇索引(通常是主键 ID)
  • MyISAM引擎:索引文件和数据文件是分开的,索引结构的叶子节点放的是指向数据的主键(或者是地址)构建的B+树索引

这种索引叫做非聚集索引、二级索引、辅助索引(非聚簇索引 nonclustered index)

非聚集索引一个表可以存在多个

叶子节点中保存的不是实际数据,而是主键,获得主键值后去聚簇索引中获得数据行

注意

非聚簇索引的叶子节点上存储的并不是真正的行数据,而是主键 ID或记录的地址

当使用非聚簇索引进行查询时,会得到一个主键 ID,再使用主键 ID 去聚簇索引上找真正的行数据,把这个过程称之为回表查询

所以聚簇索引查询效率更高,而非聚簇索引需要进行回表查询,性能不如聚簇索引

非聚簇索引的叶子节点上存储的并不是真正的行数据,而是主键 ID或记录的地址

当使用非聚簇索引进行查询时,会得到一个主键 ID,再使用主键 ID 去聚簇索引上找真正的行数据,把这个过程称之为回表查询

所以聚簇索引查询效率更高,而非聚簇索引需要进行回表查询,性能不如聚簇索引

53f6a9da99964d4d842a0f211e96ba6b.jpg

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
22天前
|
存储 关系型数据库 MySQL
MySQL主从复制原理和使用
本文介绍了MySQL主从复制的基本概念、原理及其实现方法,详细讲解了一主两从的架构设计,以及三种常见的复制模式(全同步、异步、半同步)的特点与适用场景。此外,文章还提供了Spring Boot环境下配置主从复制的具体代码示例,包括数据源配置、上下文切换、路由实现及切面编程等内容,帮助读者理解如何在实际项目中实现数据库的读写分离。
MySQL主从复制原理和使用
|
1月前
|
缓存 算法 关系型数据库
Mysql(3)—数据库相关概念及工作原理
数据库是一个以某种有组织的方式存储的数据集合。它通常包括一个或多个不同的主题领域或用途的数据表。
50 5
Mysql(3)—数据库相关概念及工作原理
|
1月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1624 14
|
24天前
|
存储 关系型数据库 MySQL
基于案例分析 MySQL 权限认证中的具体优先原则
【10月更文挑战第26天】本文通过具体案例分析了MySQL权限认证中的优先原则,包括全局权限、数据库级别权限和表级别权限的设置与优先级。全局权限优先于数据库级别权限,后者又优先于表级别权限。在权限冲突时,更严格的权限将被优先执行,确保数据库的安全性与资源合理分配。
|
22天前
|
SQL 关系型数据库 MySQL
Mysql中搭建主从复制原理和配置
主从复制在数据库管理中广泛应用,主要优点包括提高性能、实现高可用性、数据备份及灾难恢复。通过读写分离、从服务器接管、实时备份和地理分布等机制,有效增强系统的稳定性和数据安全性。主从复制涉及I/O线程和SQL线程,前者负责日志传输,后者负责日志应用,确保数据同步。配置过程中需开启二进制日志、设置唯一服务器ID,并创建复制用户,通过CHANGE MASTER TO命令配置从服务器连接主服务器,实现数据同步。实验部分展示了如何在两台CentOS 7服务器上配置MySQL 5.7主从复制,包括关闭防火墙、配置静态IP、设置域名解析、配置主从服务器、启动复制及验证同步效果。
Mysql中搭建主从复制原理和配置
|
1月前
|
存储 关系型数据库 MySQL
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
PACS系统 中 dicom 文件在mysql 8.0 数据库中的 存储和读取(pydicom 库使用)
27 2
|
30天前
|
SQL 关系型数据库 MySQL
阿里面试:MYSQL 事务ACID,底层原理是什么? 具体是如何实现的?
尼恩,一位40岁的资深架构师,通过其丰富的经验和深厚的技術功底,为众多读者提供了宝贵的面试指导和技术分享。在他的读者交流群中,许多小伙伴获得了来自一线互联网企业的面试机会,并成功应对了诸如事务ACID特性实现、MVCC等相关面试题。尼恩特别整理了这些常见面试题的系统化解答,形成了《MVCC 学习圣经:一次穿透MYSQL MVCC》PDF文档,旨在帮助大家在面试中展示出扎实的技术功底,提高面试成功率。此外,他还编写了《尼恩Java面试宝典》等资料,涵盖了大量面试题和答案,帮助读者全面提升技术面试的表现。这些资料不仅内容详实,而且持续更新,是求职者备战技术面试的宝贵资源。
阿里面试:MYSQL 事务ACID,底层原理是什么? 具体是如何实现的?
|
1月前
|
SQL 自然语言处理 关系型数据库
Vanna使用ollama分析本地MySQL数据库
这篇文章详细介绍了如何使用Vanna结合Ollama框架来分析本地MySQL数据库,实现自然语言查询功能,包括环境搭建和配置流程。
183 0
|
1月前
|
存储 关系型数据库 MySQL
Key_Value 形式 存储_5级省市城乡划分代码 (mysql 8.0 实例)
本文介绍了如何使用MySQL8.0数据库中的Key_Value形式存储全国统计用区划代码和城乡划分代码(5级),包括导入数据、通过数学函数提取省市区信息,以及查询5级行政区划的详细数据。
30 0
|
8天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
22 4