【面试普通人VS高手系列】b树和b+树的理解

简介: 【面试普通人VS高手系列】b树和b+树的理解

分享一款实用的面试题小程序  微信搜索 MST题宝库

 

数据结构与算法问题,困扰了无数的小伙伴。

很多小伙伴对数据结构与算法的认知有一个误区,认为工作中没有用到,为什么面试要问,问了能解决实际问题?

图灵奖获得者: Niklaus Wirth 说过: 程序=数据结构+算法, 也就说我们无时无刻都在和数据结构打交道。

只是作为Java开发,由于技术体系的成熟度较高,使得大部分人认为:程序应该等于 框架 + SQL 呀?

今天我们就来分析一道数据结构的题目:”B树和B+树“。

关于这个问题,我们来看看普通人和高手的回答!

普通人:#

嗯. 我想想 … 嗯… Mysql里面好像是用了B+树来做索引的! 然后…

高手:#

为了更清晰的解答这个问题,我打算从三个方面来回答:

  • 了解二叉树、AVL树、B树的概念
  • B树和B+树的应用场景
  1. B树是一种多路平衡查找树,为了更形象的理解。

二叉树,每个节点支持两个分支的树结构,相比于单向链表,多了一个分支。

二叉查找树,在二叉树的基础上增加了一个规则,左子树的所有节点的值都小于它的根节点,右子树的所有子节点都大于它的根节点。

 

二叉查找树会出现斜树问题,导致时间复杂度增加,因此又引入了一种平衡二叉树,它具有二叉查找树的所有特点,同时增加了一个规则:”它的左右两个子树的高度差的绝对值不超过1“。平衡二叉树会采用左旋、右旋的方式来实现平衡。

 

而B树是一种多路平衡查找树,它满足平衡二叉树的规则,但是它可以有多个子树,子树的数量取决于关键字的数量,比如这个图中根节点有两个关键字3和5,那么它能够拥有的子路数量=关键字数+1。

 

因此从这个特征来看,在存储同样数据量的情况下,平衡二叉树的高度要大于B树。

 

B+树,其实是在B树的基础上做的增强,最大的区别有两个:

  1. B树的数据存储在每个节点上,而B+树中的数据是存储在叶子节点,并且通过链表的方式把叶子节点中的数据进行连接。
  2. B+树的子路数量等于关键字数

这个是B树的存储结构,从B树上可以看到每个节点会存储数据。

 

这个是B+树,B+树的所有数据是存储在叶子节点,并且叶子节点的数据是用双向链表关联的。

 

2.B树和B+树,一般都是应用在文件系统和数据库系统中,用来减少磁盘IO带来的性能损耗。

以Mysql中的InnoDB为例,当我们通过select语句去查询一条数据时,InnoDB需要从磁盘上去读取数据,这个过程会涉及到磁盘IO以及磁盘的随机IO

 

我们知道磁盘IO的性能是特别低的,特别是随机磁盘IO。

因为,磁盘IO的工作原理是,首先系统会把数据逻辑地址传给磁盘,磁盘控制电路按照寻址逻辑把逻辑地址翻译成物理地址,也就是确定要读取的数据在哪个磁道,哪个扇区。

为了读取这个扇区的数据,需要把磁头放在这个扇区的上面,为了实现这一个点,磁盘会不断旋转,把目标扇区旋转到磁头下面,使得磁头找到对应的磁道,这里涉及到寻道事件以及旋转时间。

很明显,磁盘IO这个过程的性能开销是非常大的,特别是查询的数据量比较多的情况下。

所以在InnoDB中,干脆对存储在磁盘块上的数据建立一个索引,然后把索引数据以及索引列对应的磁盘地址,以B+树的方式来存储。

如图所示,当我们需要查询目标数据的时候,根据索引从B+树中查找目标数据即可,由于B+树分路较多,所以只需要较少次数的磁盘IO就能查找到。

 

3.为什么用B树或者B+树来做索引结构?原因是AVL树的高度要比B树的高度要高,而高度就意味着磁盘IO的数量。所以为了减少磁盘IO的次数,文件系统或者数据库才会采用B树或者B+树。

以上就是我对B树和B+树的理解!

总结#

数据结构在实际开发中非常常见,比如数组、链表、双向链表、红黑树、跳跃表、B树、B+树、队列等。

在我看来,数据结构是编程中最重要的基本功之一。

学了顺序表和链表,我们就能知道查询操作比较多的场景中应该用顺序表,修改操作比较多的场景应该使用链表。

学了队列之后,就知道对于FIFO的场景中,应该使用队列。

学了树的结构后,会发现原来查找类的场景,还可以更进一步提升查询性能。

基本功决定大家在技术这个岗位上能够走到的高度。

好的,本期的普通人VS高手面试系列就到这里结束了,喜欢的朋友记得点赞收藏。

如果最近大家遇到一些场景类和方案设计类的问题,欢迎私信我,我在后续的内容中给大家做解答!

分享一款实用的面试题小程序  微信搜索 MST题宝库

相关文章
|
存储 缓存 Java
每日一道面试题之LinkedList VS ArrayList~
每日一道面试题之LinkedList VS ArrayList~
|
机器学习/深度学习 存储 算法
机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost
机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost
570 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】 GBDT面试题:其中基分类器CART回归树,节点的分裂标准是什么?与RF的区别?与XGB的区别?
文章讨论了梯度提升决策树(GBDT)中的基分类器CART回归树的节点分裂标准,并比较了GBDT与随机森林(RF)和XGBoost(XGB)的区别,包括集成学习方式、偏差-方差权衡、样本使用、并行性、最终结果融合、数据敏感性以及泛化能力等方面的不同。
60 1
|
4月前
|
Java 编译器 开发工具
JDK vs JRE:面试大揭秘,一文让你彻底解锁Java开发和运行的秘密!
【8月更文挑战第24天】JDK(Java Development Kit)与JRE(Java Runtime Environment)是Java环境中两个核心概念。JDK作为开发工具包,不仅包含JRE,还提供编译器等开发工具,支持Java程序的开发与编译;而JRE仅包含运行Java程序所需的组件如JVM和核心类库。一个简单的"Hello, World!"示例展示了两者用途:需借助JDK编译程序,再利用JRE或JDK中的运行环境执行。因此,开发者应基于实际需求选择安装JDK或JRE。
65 0
|
4月前
|
前端开发 应用服务中间件 API
"揭秘!面试官必问:你是如何巧妙绕过跨域难题的?前端代理VS服务器端CORS,哪个才是你的秘密武器?"
【8月更文挑战第21天】在软件开发中,尤其前后端分离架构下,跨域资源共享(CORS)是常见的挑战。主要解决方案有两种:一是服务器端配置CORS策略,通过设置响应头控制跨域访问权限,无需改动前端代码,增强安全性;二是前端代理转发,如使用Nginx或Webpack DevServer在开发环境中转发请求绕过同源策略,简化开发流程但不适用于生产环境。生产环境下应采用服务器端CORS策略以确保安全稳定。
62 0
|
6月前
|
开发框架 Java C++
SpringIOC第二课,@Bean用法,DI详解,常见面试题Autowired VS Resource
SpringIOC第二课,@Bean用法,DI详解,常见面试题Autowired VS Resource
|
7月前
【一刷《剑指Offer》】面试题 18:树的子结构
【一刷《剑指Offer》】面试题 18:树的子结构
|
7月前
|
存储
Tire树-不学面试后悔
Tire树-不学面试后悔
面试还在被红-黑树虐?看完这篇轻松搞定面试官(二)
面试还在被红-黑树虐?看完这篇轻松搞定面试官
面试还在被红-黑树虐?看完这篇轻松搞定面试官(二)
|
7月前
|
存储 SQL 关系型数据库
面试题: Mysql索引结构,为什么要用b+树?
字节面试题: Mysql索引结构,为什么要用b+树?
94 0
下一篇
DataWorks