一、B-树
1. 常见的搜索结构
种类 | 数据格式 | 时间复杂度 |
---|---|---|
顺序查找 | 无要求 | O(N) |
二分查找 | 有序 | O(log~2~^N^) |
二叉搜索树 | 无要求 | O(N) |
二叉平衡树(红黑树和AVL树) | 无要求 | O(log~2~^N^) |
哈希 | 无要求 | O(1) |
以上结构适合用于数据量相对不是很大,能够一次性存放在内存中,进行数据查找的场景。如果数据量很大,比如有100G数据,无法一次放进内存中,那就只能放在磁盘上了,如果放在磁盘上,有需要搜索某些数据,那么如果处理呢?那么我们==可以考虑将存放关键字及其映射的数据的地址放到一个内存中的搜索树的节点中,那么要访问数据时,先取这个地址去磁盘访问数据。==
使用平衡二叉树搜索树的缺陷:
平衡二叉树搜索树的高度是logN,这个查找次数在内存中是很快的。但是当数据都在磁盘中时,访问磁盘速度很慢,在数据量很大时,logN次的磁盘访问,是一个难以接受的结果。
使用哈希表的缺陷:
哈希表的效率很高是O(1),但是一些极端场景下某个位置冲突很多,导致访问次数剧增,也是难以接受的。
那如何加速对数据的访问呢?
- 提高IO的速度(SSD相比传统机械硬盘快了不少,但是还是没有得到本质性的提升)
- 降低树的高度---多叉树平衡树
2. B树概念
1970年,R.Bayer和E.mccreight提出了一种适合外查找的树,它是一种平衡的多叉树,称为B树
(后面有一个B的改进版本B+树,然后有些地方的B树写的的是B-树,注意不要误读成"B减树")。一棵m阶(m>2)的B树,是一棵平衡的M路平衡搜索树,可以是空树或者满足以下性质:
- 根节点至少有两个孩子
- 每个分支节点都包含
k-1个关键字
和k个孩子
,其中ceil(m/2) ≤ k ≤ m
ceil是向上取整函数- 每个叶子节点都包含k-1个关键字,其中 ceil(m/2) ≤ k ≤ m
- 所有的叶子节点都在同一层
- 每个节点中的关键字从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域划分
- 每个结点的结构为:(n,A0,K1,A1,K2,A2,… ,Kn,An) 其中,Ki(1≤i≤n)为关键字,且Ki<Ki+1(1≤i≤n-1)。Ai(0≤i≤n)为指向子树根结点的指针。且Ai所指子树所有结点中的关键字均小于Ki+1。n为结点中关键字的个数,满足ceil(m/2)-1≤n≤m-1。
3. B-树的查找
假设每个节点有 n 个 key值,被分割为 n+1 个区间,一般而言,根节点都在内存中,B-树以每个节点为一次磁盘 IO,比如上图中,若搜索 key 为 49
的节点,首先在根节点进行二分查找(因为 keys 有序,二分最快),判断 根节点的最小节点75
都比49
大, 所以定位到75
节点的左孩子节点,此时进行一次磁盘 IO,将该节点从磁盘读入内存,接着继续进行上述过程,直到找到该 key 为止。
4. B-树的插入分析
插入元素的基本操作:
假设该B树为M阶,M = 3
分裂节点的基本操作:
==这里我们看出B树是天然平衡的,因为它是向右和向上增长的,根节点的分裂会增加一层。==
这里我们还需要注意的是:
- 新插入的节点一定是在叶子插入,叶子没有孩子,不影响关键字和孩子之间的关系。
- 叶子节点满了,分裂出一个兄弟,提取中位数,向父亲插入一个值和一个孩子。
二、B+树和B*树
1. B+树
B+树
是B树的变形,是在B树基础上优化的多路平衡搜索树,B+树的规则跟B树基本类似,但是又
在B树的基础上做了以下几点改进优化:
- 分支节点的==子树指针==与==关键字个数==相同
- 分支节点的子树指针
p[i]指向关键字值大小
在[k[i],k[i+1])
区间之间- 所有叶子节点增加一个链接指针链接在一起
- 所有关键字及其映射数据都在叶子节点出现
B+ 树的特征
- B+树内部有两种结点,一种是索引结点,一种是叶子结点。
- B+树的索引结点并不会保存记录,只用于索引,所有的数据都保存在B+树的叶子结点中。而B树则是所有结点都会保存数据。
- B+树的叶子结点都会被连成一条链表。叶子本身按索引值的大小从小到大进行排序。即这条链表是 从小到大的。多了条链表方便范围查找数据。
- B树的所有索引值是不会重复的,而B+树 非叶子结点的索引值 最终一定会全部出现在 叶子结点中。
B+树的插入过程
B+树的插入过程跟B树基本是类似的,细节区别在于:第一次插入两层节点,一层做分支,另一层做根
。
后面一样往叶子去插入,插入满了以后,分裂一半给兄弟,转换成往父亲插入一个key和一个孩子,孩子就是兄弟。key是兄弟的第一个最小值的key
。
B+树的详细插入过程如下:
B树和B+树的对比:
- B树好处:
B树的每一个结点都包含key(索引值) 和 value(对应数据),因此方位离根结点近的元素会更快速。(相对于B+树)- B树的不足:
不利于范围查找(区间查找),如果要找 0~100的索引值,那么B树需要多次从根结点开始逐个查找。
而B+树由于叶子结点都有链表,且链表是以从小到大的顺序排好序的,因此可以直接通过遍历链表实现范围查找。
2. B*树
B*树
是B+树的变形,在B+树的 非根和非叶子节点再增加指向兄弟节点的指针。
B+树的分裂:
当一个结点满时
,分配一个新的结点,并将原结点中1/2的数据复制到新结点
,最后在父结点中增加新结点的指针;==B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针==。
B*树的分裂
当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了);==如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针。== 所以,B*树分配新结点的概率比B+树要低,空间使用率更高;
总结:
通过以上介绍,大致将B树,B+树,B*树总结如下:
B树
:有序数组+平衡多叉树;B+树
:有序数组链表+平衡多叉树;B*树
:一棵更丰满的,空间利用率更高的B+树。
注意:
三、B-树的应用
1. 索引
B-树最常见的应用就是用来做索引
。索引通俗的说就是为了方便用户快速找到所寻之物,比如:书籍目录可以让读者快速找到相关信息,hao123网页导航网站,为了让用户能够快速的找到有价值的分类网站,本质上就是互联网页面中的索引结构。
==MySQL官方对索引的定义为:== 索引(index)是帮助MySQL高效获取数据的数据结构,简单来说:索引就是数据结构。
当数据量很大时,为了能够方便管理数据,提高数据查询的效率,一般都会选择将数据保存到数据库,因此数据库不仅仅是帮助用户管理数据,而且数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用数据,这样就可以在这些数据结构上实现高级查找算法,该数据结构就是索引。
2. MySQL索引简介
MySQL是目前非常流行的开源关系型数据库,不仅是免费的,可靠性高,速度也比较快,而且拥有灵活的插件式存储引擎,如下:
MySQL中索引属于存储引擎级别的概念,不同存储引擎对索引的实现方式是不同的。
比如我们建立一张学生成绩表
B+树索引磁盘数据
一般数据库要求主键
是唯一的,比如MySQL、建表的主键,就是B+树的key,B+树的value是存储一行数据的磁盘地址
。
这里我们需要注意的是:分支节点也是需要存在磁盘中的,因为数据量大了,内存是存不下的。分支节点中应该是磁盘地址但是分支节点理论应该尽量被缓存到cache中。
一般数据库要求主键值是不重复唯一值字段: ==电话、身份证号码适合。名字、地址不适合。== 没有字段能保持唯一,可以考虑自增主键 (其实他自己建立一个自增整数做主键)。一般数据库不要求索引唯一,像mysql建立索引可以考虑使用B+树或者Hash表,数据结构允许冗余
2.1 MyISAM
MyISAM引擎是MySQL5.5.8版本之前默认的存储引擎,不支持事物,支持全文检索,使用B+Tree
作为索引结构,叶节点的data域存放的是数据记录的地址,其结构如下:
说明:
- ==“叶节点的data域存放的是数据记录的地址”== 方便了
索引树
和主键树
映射同样的数据。 - B树节点数据都在磁盘文件中,访问节点都是IO行为,只是他们会见
热数据
缓存在Cache
中。索引文件中存储的是数据文件的地址。
2.2 InnoDB
InnoDB存储引擎支持事务,其设计目标主要面向在线事务处理的应用,从MySQL数据库5.5.8版本开始,InnoDB存储引擎是默认的存储引擎。InnoDB支持B+树索引、全文索引、哈希索引
。但InnoDB使用B+Tree作为索引结构时,具体实现方式却与MyISAM截然不同。
第一个区别是: InnoDB的数据文件本身就是索引文件
。MyISAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址。而InnoDB索引,表数据文件本身就是按B+Tree组织的一个索引结构,这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键,因此InnoDB表数据文件本身就是主索引。
第二个区别是: InnoDB的辅助索引data域存储相应记录主键的值而不是地址,所有辅助索引都引用主键作为data域。
建立索引的时候,索引树的叶子节点和主键树叶子节点中数据不一样,没办法直接映射
先用name,name对应主键id,再用主键id再去主键树搜索一次也就是说他用索引查找,要查找两次