mysql索引的数据结构为什么用B+树,知其所以然

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: mysql索引的数据结构为什么用B+树,知其所以然

前提:
以下的一些数据结构大家需提前知道,否则看起来会比较有困难,大家也可以按照本文所提到的知识点去主动查阅学习。

1.Hash表?No

因考虑到在数据检索的过程中经常会有范围的查询(如下),而hash表不能提供这种功能。

SELECT * FROM hero WHERE age>5 AND age<20;

使用哈希算法实现的索引虽然可以做到快速检索数据,但是没办法做数据高效范围查找,因此哈希索引是不适合作为 Mysql 的底层索引的数据结构。

2.二叉查找树(BST)?No

二叉查找树(Binary Search Tree)虽然可以达到范围搜索,但是在树的插入过程中,如果插入的数据本来就是有顺序的,那么就会形成一条链(如下),它的最坏情况是O(n)。
在这里插入图片描述

3.红黑树?No

红黑树虽然看似达到了平衡状态,但是也会有极端情况存在,和上述BST树一样,虽然不会成为链状,但是红黑树会存在右倾的现象。
在这里插入图片描述
图片来自网络

在数据库中的基本主键自增操作,主键一般都是数百万数千万的,如果红黑树存在这种问题,对于查找性能而言也是巨大的消耗,我们数据库不可能忍受这种无意义的等待的。

4.平衡二叉树(AVL)?差那么二点意思

平衡二叉树,英文翻译为Balanced Binary Tree,为啥叫AVL呢?
AVL 是大学教授 G.M. Adelson-Velsky 和 E.M. Landis 名称的缩写,他们提出的平衡二叉树的概念,为了纪念他们,将平衡二叉树称为 AVL树。

AVL树本质上是一颗二叉查找树,但是它又具有以下特点:

它是一棵空树或它的左右两个子树的高度差的绝对值不超过1,左右两个子树也都是一棵平衡二叉树。

它不存在红黑树这种右倾的现象,也具备数据高效范围查找的能力,但是数据库查询数据的瓶颈在于磁盘的IO,树节点在磁盘空间中存储可能是不连续的,假设我们一次IO读取一个树的节点,此次读入内存的这页中没有其他树的节点,那么每读取一个树的节点,就要进行一次IO,这是多么消耗时间啊,所以我们设计数据库索引时需要首先考虑怎么尽可能减少磁盘 IO 的次数。

磁盘读取依靠的是机械运动,分为寻道时间、旋转延迟、传输时间三个部分,这三个部分耗时相加就是一次磁盘IO的时间;这个花费的时间成本是内存访问的十几万倍左右。


正是由于磁盘IO是非常昂贵的操作,所以计算机操作系统对此做了优化:预读;每一次IO时,不仅仅把当前磁盘地址的数据加载到内存,同时也把相邻数据也加载到内存缓冲区中。因为局部预读原理说明:当访问一个地址数据的时候,与其相邻的数据很快也会被访问到。每次磁盘IO读取的数据我们称之为一页(page)。一页的大小与操作系统有关,一般为4k或者8k。这也就意味着读取一页内数据的时候,实际上发生了一次磁盘IO。

相关术语解释:

扇区(sector): 磁盘上的每个磁道被等分成多个弧段,这个弧段便称作扇区(sector)。扇区是磁盘物理层面的名称,它是实际发生读写的最底层。磁盘块(IO Block): 操作系统不与扇区直接进行交互,因为一般情况下一个扇区是512byte,如果1T去用512byte进行划分,那划分的地址空间太多了,为了让操作系统能够寻址到更大的地址空间,操作系统将相邻的扇区组合在一起,形成一个块,对块进行管理。每个磁盘块可以包括 2、4、8、16、32 或 64 个扇区,这便是磁盘块(IO Block)。磁盘块是操作系统中出现的名称,文件系统读写数据的最小单位,它同时也被叫做磁盘簇。页(page): 页是内存中出现的名称,它是内存的最小存储单位,页的大小通常为磁盘块大小的 2^n 倍。

4.B-tree(B-树也称B树)?差那么一点意思

B树是一种平衡的多叉树,B树相比于平衡二叉树(AVL),它能够在单个节点中存储大量键,也降低了树的高度,从而减少了IO的次数。
在这里插入图片描述
图片来自网络

B树的节点中存储的是数据,单个节点存储的内容还是太少了,如何让一个节点存储的内容更多呢?B+树它来了。

5.B+树

在节点中存储某段数据的首地址,并且B+树的叶子节点用了一个链表串联起来,便于范围查找。
在这里插入图片描述
B+树高度降低,减少了磁盘 IO。其次,B+树的叶子节点是真正数据存储的地方,叶子节点用了链表连接起来,这个链表本身就是有序的,在数据范围查找时,更具备效率。因此 Mysql 的索引用的就是 B+树,B+树在查找效率、范围查找中都有着非常不错的性能。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1天前
|
存储 关系型数据库 MySQL
MySQL中的索引及怎么使用
综上所述,MySQL索引的正确使用是数据库性能调优的关键一环。通过合理设计索引结构,结合业务需求和数据特性,可以有效提升数据库查询响应速度,降低系统资源消耗,从而确保应用的高效运行。
9 1
|
5天前
|
存储 关系型数据库 MySQL
MySQL索引失效及避免策略:优化查询性能的关键
MySQL索引失效及避免策略:优化查询性能的关键
23 3
|
11天前
|
关系型数据库 MySQL 数据库
MySQL删除全局唯一索引unique
这篇文章介绍了如何在MySQL数据库中删除全局唯一的索引(unique index),包括查看索引、删除索引的方法和确认删除后的状态。
32 9
|
5天前
|
存储 关系型数据库 MySQL
MySQL 为什么使用 B+ 树作为索引结构?
MySQL 为什么使用 B+ 树作为索引结构?
16 2
|
5天前
|
存储 SQL 关系型数据库
MySQL 的索引是怎么组织的?
MySQL 的索引是怎么组织的?
12 1
|
6天前
|
存储 关系型数据库 MySQL
MySQL索引的概念与好处
本文介绍了MySQL存储引擎及其索引类型,重点对比了MyISAM与InnoDB引擎的不同之处。文中详细解释了InnoDB引擎的自适应Hash索引及聚簇索引的特点,并阐述了索引的重要性及使用原因,包括提升数据检索速度、实现数据唯一性等。最后,文章还讨论了主键索引的选择与页分裂问题,并提供了使用自增字段作为主键的建议。
MySQL索引的概念与好处
|
5天前
|
监控 关系型数据库 MySQL
如何优化MySQL数据库的索引以提升性能?
如何优化MySQL数据库的索引以提升性能?
14 0
|
5天前
|
监控 关系型数据库 MySQL
深入理解MySQL数据库索引优化
深入理解MySQL数据库索引优化
12 0
|
6天前
|
算法 安全 测试技术
golang 栈数据结构的实现和应用
本文详细介绍了“栈”这一数据结构的特点,并用Golang实现栈。栈是一种FILO(First In Last Out,即先进后出或后进先出)的数据结构。文章展示了如何用slice和链表来实现栈,并通过golang benchmark测试了二者的性能差异。此外,还提供了几个使用栈结构解决的实际算法问题示例,如有效的括号匹配等。
golang 栈数据结构的实现和应用
01_设计一个有getMin功能的栈
01_设计一个有getMin功能的栈

热门文章

最新文章

下一篇
无影云桌面