认真学习数据结构之B/B+/B*树

简介: 认真学习数据结构之B/B+/B*树

前面我们学习了二叉树、AVL树、23树以及红黑树等。接下来我们研究B树/B+树。

【1】多路查找树


这里我们首先引入多路查找树的概念。多路查找树(MuitlWay Search Tree)是二叉树的演进,也就是允许一个结点存储一个以上的key。比如前面我们学习的2-3树,其就是一个一棵多路查找树。


二叉树中每个结点有一个数据项,最多有两个子结点。如果允许树的每个结点可以有两个以上的子结点,那么这个树就称为n阶的多叉树,或者称为n叉树


那么为什么演进多路查找树呢?


有没有那么一个场景,需要树的高度尽可能低来提高某种效率/性能?比如磁盘IO。我们知道内存中数据的读取是很快的,磁盘IO是很慢的。如果需要频繁读取磁盘的数据发生多次磁盘IO,那么性能必然不高。


以数据库的索引文件为例,假设根结点存储在内存中。那么检索到key的效率取决于磁盘IO读取的次数。这也是MySQL为什么使用B+树作为索引文件的数据结构。


根据多路查找树的定义,那么2-3树,2-3-4树、B树、B+树都是多路查找树。

【2】B树


B树(B-tree)是有Bayer和McCreight在1972年提出的数据结构。B树索引是数据库中存取和查找文件(称为记录或键值)的一种方法,应用于磁盘读取方面。


B树(B-tree)是一种树状数据结构,它能够存储数据、对其进行排序并允许以O(log n)的时间复杂度运行进行查找、顺序读取、插入和删除的数据结构。


B树,概括来说是一个结点可以拥有多于2个子结点的二叉查找树。与自平衡二叉查找树不同,B树为系统最优化大块数据的读和写操作。B-tree算法减少定位记录时所经历的中间过程,从而加快存取速度。普遍运用在数据库和文件系统。


B树的出现是为了弥补不同的存储级别之间的访问速度上的巨大差异,实现高效的 I/O。平衡二叉树的查找效率是非常高的,并可以通过降低树的深度来提高查找的效率。但是当数据量非常大,树的存储的元素数量是有限的,这样会导致二叉查找树结构由于树的深度过大而造成磁盘I/O读写过于频繁,进而导致查询效率低下。另外数据量过大会导致内存空间不够容纳平衡二叉树所有结点的情况。B树是解决这个问题的很好的结构。

① B树的性质(平衡多路查找树)


根据Knuth’s的定义,n阶B树(a B-tree of order n)是具有以下性质:


每个结点最多有n个孩子结点--多路

每个非叶子结点(根结点除外)最多有n/2(向上取整)到n个孩子结点[n/2,n]。

root至少有2个子树,除非root的孩子是叶子结点

k个孩子的非叶子结点含有k-1个键值,k个指针,键值以升序排列;

所有的叶子结点都在同一层(体现了平衡)。(B树的阶指最大子结点数,比如 2-3 树的阶是 3,2-3-4 树的阶是 4)

注意:根结点为叶子结点,整棵树只有一个根结点。

如下是一棵3(n=3)阶B树,可以看到结点最大指针数为3(n=k=3),最大键值数量为2=(n-1),最大孩子结点个数为3(n),最大孩子结点存储键值为6(n*(n-1))

其拥有二叉查找树的特性:


节点中关键字按从小到大(从上到下,从左到右)的顺序排列。且对于父节点关键字来说,它的左子树的所有关键字都小于父节点关键字,它的右子树所有关键字都大于父节点的关键字,它的中间子树的键值处于父结点键值中间。


② B树的查询


B-树的搜索,从根结点开始,对结点内的关键字(有序)序列进行二分查找,如果命中则结束,否则进入查询关键字所属范围的儿子结点,重复查找直到所对应的儿子指针为空或已经是叶子结点。


其与二叉查找树的查询一致,从根节点往下判断子节点键值与查找目标的大小。其算法时间复杂度为O(logn)。


以下图为例,如果要查找0005,那么路径为根节点-0008-左孩子0006-0005



fedbb072451e4d61ad2f3bf43c8ba230.png


③ B树的插入与删除


插入需要着重考虑的无非是融合与分裂,删除着重考虑的是保证“所有叶子节点都在同一层”。


关于插入与删除的详细描述不再赘述,详细过程图示可以参考博文:认真学习数据结构之2-3树


关于“所有叶子节点都在同一层”这个性质,需要考虑一个问题:是否存在只有一个孩子节点的子树?比如下图中,我们删除5,那么结构是不变还是0006与0007融合?


fedbb072451e4d61ad2f3bf43c8ba230.png


答案是不存在这种情况,即如果删除0005,那么0006会与0007融合,0008将会下沉。最终形成下图。

其实这个从插入过程也可以考虑到。插入的时候是不会插入到空节点的,对于n阶B树来讲要么插入到一个键值个数<=n-2结点中,要么插入到一个键值个数为n-1结点个数中导致分裂。

所以不存会在这种情况:子树中左右孩子结点可能有一个不存在。也就是说B树的每棵子树至少是一个满二叉树。


【4】B+树

① B+树的性质


B+树是B树的一种变形形式,B+树上的叶子结点存储关键字以及相应记录的地址,叶子结点以上各层作为索引使用。一棵m阶的B+树定义如下:


每个结点至多有m个子女;

除根结点外,每个结点至少有[m/2]([ ]表示向上取整)个子女,根结点至少有两个子女;

有k个子女的结点必有k个关键字

B+树的查找与B树不同,当索引部分某个结点的关键字与所查的关键字相等时,并不停止查找,应继续沿着这个关键字左边的指针向下,一直查到该关键字所在的叶子结点为止。B+树在B树的基础上做了优化,它与B树的差异在于:


有 k 个子节点的节点必然有 k个key;


非叶子结点的子树指针与关键字个数相同


非叶子节点仅具有索引作用,跟记录有关的信息均存放在叶子节点中。


树的所有叶子节点构成一个有序链表,可以按照key排序的次序遍历全部记录。


所有的非终端结点可以看成是索引部分,结点中仅含有其子树根结点中最大(或最小)关键字。下图(来源于网络)就是一棵B+树

② B+树的优点


由于B+树在内部节点上不含数据信息,因此在内存页中能够存放更多的key。 数据存放的更加紧密,具有更好的空间局部性。因此访问叶子结点上关联的数据也具有更好的缓存命中率。


B+树的叶子结点都是相链的,因此对整棵树的遍历只需要一次线性遍历叶子结点即可。而且由于数据顺序排列并且相连,所以便于区间查找和搜索。


而B树则需要进行每一层的递归遍历。相邻的元素可能在内存中不相邻,所以缓存命中性没有B+树好。


③ B树和B+树比较


B树 B+树
B树的每个节点,有m个key,m+1个指针,每个指针分别是区间,代表大于前面的key,小于后面的key B+树的每个节点,有m+1个key,m+1个指针,每个指针与一个key对应,代表子节点中的数全部大于等于当前key。因此每个节点的key值更多,所以整个树的高度更低。
B树中每个节点的每个key都有数据信息 B+树中只有叶子节点有数据信息,非叶子节点没有。所以B+树的非叶子节点占用空间更小
B树的所有节点都包含数据,可能还没到叶子节点就已经找到直接返回了 B+树的非叶子节点就是单纯的索引,所有实际的数据都存储在叶子节点中,所以每次查询,都必须查询到叶子节点,所以每次查询的速度就十分的稳定
B树不可以进行叶子节点间的顺序查找,同时若是可以也没意义,因为是中序遍历(左-根-右) B+树的叶子节点有指针连着,可以范围查找,即循着范围起点的叶子节点进行顺序遍历


上表参考博文:B树、B+树详解

相对于B+树,B树的优点在于: 由于B树的每一个节点都包含数据,因此经常访问的元素可能离根节点更近,因此访问也更迅速。其最大缺点在于区间查找、范围遍历。


【5】B*树

B*树是B+树的变体,在B+树的非根和非叶子结点再增加指向兄弟的指针。

B*树定义了非叶子结点关键字个数至少为(2/3)*M,即块的最低使用率为2/3(代替B+树的1/2)。


B+树的分裂

当一个结点满时,分配一个新的结点,并将原结点中1/2的数据复制到新结点,最后在父结点中增加新结点的指针。


B+树的分裂只影响原结点和父结点,而不会影响兄弟结点,所以它不需要指向兄弟的指针。

B*树的分裂


当一个结点满时,如果它的下一个兄弟结点未满,那么将一部分数据移到兄弟结点中,再在原结点插入关键字,最后修改父结点中兄弟结点的关键字(因为兄弟结点的关键字范围改变了)。


如果兄弟也满了,则在原结点与兄弟结点之间增加新结点,并各复制1/3的数据到新结点,最后在父结点增加新结点的指针。


B*树分配新结点的概率比B+树要低,空间使用率更高。


图片来源于网络。



2729f930dedd4fa480250ad53713a180.png

参考博文:B树、B+树与B*树

目录
相关文章
|
1月前
|
C++
【C++数据结构——树】二叉树的性质(头歌实践教学平台习题)【合集】
本文档介绍了如何根据二叉树的括号表示串创建二叉树,并计算其结点个数、叶子结点个数、某结点的层次和二叉树的宽度。主要内容包括: 1. **定义二叉树节点结构体**:定义了包含节点值、左子节点指针和右子节点指针的结构体。 2. **实现构建二叉树的函数**:通过解析括号表示串,递归地构建二叉树的各个节点及其子树。 3. **使用示例**:展示了如何调用 `buildTree` 函数构建二叉树并进行简单验证。 4. **计算二叉树属性**: - 计算二叉树节点个数。 - 计算二叉树叶子节点个数。 - 计算某节点的层次。 - 计算二叉树的宽度。 最后,提供了测试说明及通关代
46 10
|
1月前
|
存储 C++
【C++数据结构——树】哈夫曼树(头歌实践教学平台习题) 【合集】
【数据结构——树】哈夫曼树(头歌实践教学平台习题)【合集】目录 任务描述 相关知识 测试说明 我的通关代码: 测试结果:任务描述 本关任务:编写一个程序构建哈夫曼树和生成哈夫曼编码。 相关知识 为了完成本关任务,你需要掌握: 1.如何构建哈夫曼树, 2.如何生成哈夫曼编码。 测试说明 平台会对你编写的代码进行测试: 测试输入: 1192677541518462450242195190181174157138124123 (用户分别输入所列单词的频度) 预
60 14
【C++数据结构——树】哈夫曼树(头歌实践教学平台习题) 【合集】
|
1月前
|
Java C++
【C++数据结构——树】二叉树的基本运算(头歌实践教学平台习题)【合集】
本关任务:编写一个程序实现二叉树的基本运算。​ 相关知识 创建二叉树 销毁二叉树 查找结点 求二叉树的高度 输出二叉树 //二叉树节点结构体定义 structTreeNode{ intval; TreeNode*left; TreeNode*right; TreeNode(intx):val(x),left(NULL),right(NULL){} }; 创建二叉树 //创建二叉树函数(简单示例,手动构建) TreeNode*create
48 12
|
1月前
|
存储 算法 测试技术
【C++数据结构——树】二叉树的遍历算法(头歌教学实验平台习题) 【合集】
本任务旨在实现二叉树的遍历,包括先序、中序、后序和层次遍历。首先介绍了二叉树的基本概念与结构定义,并通过C++代码示例展示了如何定义二叉树节点及构建二叉树。接着详细讲解了四种遍历方法的递归实现逻辑,以及层次遍历中队列的应用。最后提供了测试用例和预期输出,确保代码正确性。通过这些内容,帮助读者理解并掌握二叉树遍历的核心思想与实现技巧。
51 2
|
3月前
|
存储 缓存 算法
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
99 5
|
3月前
|
算法
数据结构之文件系统模拟(树数据结构)
本文介绍了文件系统模拟及其核心概念,包括树状数据结构、节点结构、文件系统类和相关操作。通过构建虚拟环境,模拟文件的创建、删除、移动、搜索等操作,展示了文件系统的基本功能和性能。代码示例演示了这些操作的具体实现,包括文件和目录的创建、移动和删除。文章还讨论了该算法的优势和局限性,如灵活性高但节点移除效率低等问题。
91 0
|
3月前
|
算法
数据结构之博弈树搜索(深度优先搜索)
本文介绍了使用深度优先搜索(DFS)算法在二叉树中执行遍历及构建链表的过程。首先定义了二叉树节点`TreeNode`和链表节点`ListNode`的结构体。通过递归函数`dfs`实现了二叉树的深度优先遍历,按预序(根、左、右)输出节点值。接着,通过`buildLinkedList`函数根据DFS遍历的顺序构建了一个单链表,展示了如何将树结构转换为线性结构。最后,讨论了此算法的优点,如实现简单和内存效率高,同时也指出了潜在的内存管理问题,并分析了算法的时间复杂度。
78 0
|
3月前
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
149 16
|
3月前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
|
3月前
|
算法 安全 NoSQL
2024重生之回溯数据结构与算法系列学习之栈和队列精题汇总(10)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第3章之IKUN和I原达人之数据结构与算法系列学习栈与队列精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!

热门文章

最新文章