MySQL底层存储B-Tree和B+Tree原理分析

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: MySQL底层存储B-Tree和B+Tree原理分析

1.B-Tree的原理分析

(1)什么是B-Tree

  • B-树,全称是 Balanced Tree,是一种多路平衡查找树。
  • 一个节点包括多个key (数量看业务),具有M阶的B树,每个节点最多有M-1个Key。
  • 节点的key元素个数就是指这个节点能够存储几个数据。
  • 每个节点最多有m个子节点,最少有M/2个子节点,其中M>2。
  • 数据集合分布在整个树里面,叶子节点和非叶子节点都存储数据;类似在整个树里面做一次二分查找。
  • B 树相对于平衡二叉树,每个节点存储了更多的键值(key)和数据(data)。
  • 实际业务中B树的阶数一般大于100,存储大量数据,B树高度也会很低,查询效率会更高。
  • 备注
  • 每个节点拥有最多的子节点,子节点的个数一般称为阶。
  • 阶:m阶是代表每个节点最多有m个分支(子树)。
  • 树的度:这棵树里面节点最大的度。
  • 节点的度:当前节点有几个子节点。



e6b63bcda291464baac2f8821759b228.jpg

(2)B树插入原理

  • 每个节点的数据都是顺序存储,具有M阶的B树,树的阶数表示每个结点最多可以有多少个子结点


9ddb842faada47b3a8613aa909352042.gif

(3)B树的应用场景

  • 在数据库中,B树用来维护索引,用来提高查询效率,一个节点可以存储整个页(即磁盘块)
  • 在文件系统中,B树用来存储文件的目录信息,提高文件的访问效率
  • 在操作系统中,B树可以用来存储内存管理信息,提高内存的分配效率
  • (4)思考:3层的B树,阶数为1024,最多容纳多少个元素?
  • B树的阶数表示每个结点最多可以有多少个子结点,因此B树的阶数为1024,表示每个结点最多可以有1024个子结点
  • 由于B树的3层,因此根结点可以有1024个子结点,每个子结点又可以有1024个子结点

因此一个3层的B树,阶数为1024,B树的每一层的节点数都是阶数的幂次方

计算总容量 把每一层的节点数相加 即10241+10242+1024^3 大约是 11亿个节点,假如每个节点放一个元素就是11亿个

所以在10亿个数据中找目标值,常规小于3次磁盘IO即可找到目标值,比平衡二叉树的30次提升了不少

  • 平衡二叉树的高度就等于每次查询数据时磁盘 IO 操作的次数。
  • 10亿的数据量,log2(N)约等于30次磁盘IO,
  • log2(N) 相当于2的多少次方(立方)等于N,例:log2 (8)= 3
  • 2的30次方=1073741824,所以就是30次磁盘IO

2.B+Tree的原理分析

(1)什么是B+Tree

  • 是B树的一种变形形式,B+树上的叶子结点存储关键字以及相应记录的地址,同等存储空间下比B-Tree存储更多key
  • 非叶子节点不对关键字记录的指针进行保存,只进行数据索引 , 树的层级会更少 , 所有叶子节点都在同一层,
  • 叶子节点的关键字从小到大有序排列,叶子节点之间用指针连接, 构成有序链表(稠密索引)
  • B+树上每个非叶子节点之间是一个双向链表进行链接,而叶子节点中的数据都是使用单向链表链接

查找特点

  • 当索引部分某个结点的关键字与所查的关键字相等时,并不停止查找
  • 继续沿着关键字的指针向下,每次查询必须到叶子节点才能真正获取到相关数据
  • B+Tree叶子节点相连接,对树的遍历就是只需要 一次线性遍历叶子节点
  • 由于叶子节点的数据是顺序排列,方便区间查找
  • 在B+树完成范围查找,排序查找,分组查找,去重查找 比B树效率也比较高

5cd366f34efb4ebf88673535e02ff8cd.jpg

(2)B+Tree插入流程解析

cf3ebb7cf9f645db8a3466f8319d2363.gif


总结

  • B树和B+树的最大区别在于非叶子节点是否存储数据
  • B+树非叶子节点只是当索引使用,同等空间下B+树存储更多key
  • B树,非叶子节点和叶子节点都会存储数据,找到对应节点就有对应的数据
  • B+树, 只有叶子节点才会存储数据,存储的数据都是在一行上,找到非叶子节点的key,还需要继续找到叶子节点才可以获取数据
  • B树的节点包括了key-value,所以找到对应的key即可找到对应的value,不用在继续寻找
  • 两种树各有优缺点和应用场景

3.B+Tree树应用之Mysql索引底层原理剖析

  • 背景
  • Mysql数据库是大家用最多的,查询是最高频使用的操作
  • 在多数数据库的设计里面,会用B-Tree或B+Tree做索引提高查询效率
  • 基于一张数据库的表数据进行查询(类似mysql的user表)
  • 构建索引:id用做key,然后data是数据的存储地址
内存地址 id phone name Age
0xFS 843 13820835467 张三 43
0xER 984 15738235423 李四 20
0x32 4212 12152354223 王五 18
0x93 1000 12152356324 赵六 30
0xAP 2341 18735622097 李祥 19
0xSQ … 1千万条数据

精确查找 id=2341的数据 select * from user where id = 2341

  • 未使用索引
  • 自上而下查找数据,一行行遍历,5次才找到数据
  • 使用索引
  • id建立主键索引(B+Tree结构),对应的数据存储数据的地址,2次找到数据,且数据量越多效果越明显
  • 根节点是常驻内存的,不需要进行IO操作
  • 范围查找 id>1000 和 id < 4212 的用户
  • 未使用索引
  • 自上而下查找数据,一行行遍历
  • 使用索引
  • id建立主键索引(B+Tree结构),由于本身是有序链表,所以顺序查找即可
  • Mysql的InnoDB中的索引结构与MyISAM的索引结构的区别
  • InnoDB引擎,表数据文件按B+Tree组织的,叶节点data域保存完整行数据, 树上的key就是主键, 以主键构建的B+树索引
  • 这种索引叫做聚集索引(聚簇索引 clustered index)
  • 聚簇索引一般为主键索引,而主键一个表中只能有一个,所以聚集索引一个表只能有一个
  • 聚簇索引叶子节点存储的是行数据,而非聚簇索引叶子节点存储的是聚簇索引(通常是主键 ID)
  • MyISAM引擎:索引文件和数据文件是分开的,索引结构的叶子节点放的是指向数据的主键(或者是地址)构建的B+树索引

这种索引叫做非聚集索引、二级索引、辅助索引(非聚簇索引 nonclustered index)

非聚集索引一个表可以存在多个

叶子节点中保存的不是实际数据,而是主键,获得主键值后去聚簇索引中获得数据行

注意

非聚簇索引的叶子节点上存储的并不是真正的行数据,而是主键 ID或记录的地址

当使用非聚簇索引进行查询时,会得到一个主键 ID,再使用主键 ID 去聚簇索引上找真正的行数据,把这个过程称之为回表查询

所以聚簇索引查询效率更高,而非聚簇索引需要进行回表查询,性能不如聚簇索引

非聚簇索引的叶子节点上存储的并不是真正的行数据,而是主键 ID或记录的地址

当使用非聚簇索引进行查询时,会得到一个主键 ID,再使用主键 ID 去聚簇索引上找真正的行数据,把这个过程称之为回表查询

所以聚簇索引查询效率更高,而非聚簇索引需要进行回表查询,性能不如聚簇索引

53f6a9da99964d4d842a0f211e96ba6b.jpg

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
15天前
|
关系型数据库 MySQL 索引
mysql 分析5语句的优化--索引添加删除
mysql 分析5语句的优化--索引添加删除
12 0
|
1月前
|
存储 缓存 关系型数据库
MySQL的varchar水真的太深了——InnoDB记录存储结构
varchar(M) 能存多少个字符,为什么提示最大16383?innodb怎么知道varchar真正有多长?记录为NULL,innodb如何处理?某个列数据占用的字节数非常多怎么办?影响每行实际可用空间的因素有哪些?本篇围绕innodb默认行格式dynamic来说说原理。
834 6
MySQL的varchar水真的太深了——InnoDB记录存储结构
|
2月前
|
存储 关系型数据库 MySQL
深入理解MySQL索引:从原理到最佳实践
深入理解MySQL索引:从原理到最佳实践
198 0
|
26天前
|
SQL 关系型数据库 MySQL
【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(8.0版本升级篇)
【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(8.0版本升级篇)
95 0
|
15天前
|
SQL 缓存 关系型数据库
mysql性能优化-慢查询分析、优化索引和配置
mysql性能优化-慢查询分析、优化索引和配置
80 1
|
21天前
|
缓存 关系型数据库 MySQL
MySQL 查询优化:提速查询效率的13大秘籍(索引设计、查询优化、缓存策略、子查询优化以及定期表分析和优化)(中)
MySQL 查询优化:提速查询效率的13大秘籍(索引设计、查询优化、缓存策略、子查询优化以及定期表分析和优化)(中)
|
23天前
|
SQL 关系型数据库 MySQL
【MySQL】慢SQL分析流程
【4月更文挑战第1天】【MySQL】慢SQL分析流程
|
26天前
|
SQL 关系型数据库 MySQL
【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(数据恢复补充篇)(一)
【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(数据恢复补充篇)
30 0
|
1月前
|
存储 关系型数据库 MySQL
TiDB与MySQL、PostgreSQL等数据库的比较分析
【2月更文挑战第25天】本文将对TiDB、MySQL和PostgreSQL等数据库进行详细的比较分析,探讨它们各自的优势和劣势。TiDB作为一款分布式关系型数据库,在扩展性、并发性能等方面表现突出;MySQL以其易用性和成熟性受到广泛应用;PostgreSQL则在数据完整性、扩展性等方面具有优势。通过对比这些数据库的特点和适用场景,帮助企业更好地选择适合自己业务需求的数据库系统。
|
1月前
|
存储 SQL 关系型数据库
[MySQL]事务原理之redo log,undo log
[MySQL]事务原理之redo log,undo log