【数据结构与算法分析】0基础带你学数据结构与算法分析08--二叉查找树 (BST)

简介: 假设树上每个结点都存储了一项数据,如果这些数据是杂乱无章的插入树中,那查找这些数据时并不容易,需要 O(N) 的时间复杂度来遍历每个结点搜索数据。

假设树上每个结点都存储了一项数据,如果这些数据是杂乱无章的插入树中,那查找这些数据时并不容易,需要 O(N) 的时间复杂度来遍历每个结点搜索数据。


如果想要时间复杂度降到 O(log⁡N) ,则需要在常数时间内,将问题的大小缩减。如果为一个结点加上限制,比如子树上的值总比当前结点的值大,而另一边总比当前结点的值小,如此便在常数时间内可以将问题的大小减半,可以判断接下来搜索左子树还是右子树。这种加以限制的二叉树被称为 二叉查找树 (Binary Search Tree, BST)。假定 BST 中左结点总是严格小于当前结点的值,而右结点总是不小于当前结点的值。

15.png

二叉树的遍历四种方法很简单,如果将其用于 BST 上有什么效果呢:


前序遍历: 6,2,1,4,3,8,7,9

中序遍历: 1,2,3,4,6,7,8,9

后序遍历: 1,3,4,2,7,9,8,6

层序遍历: 6,2,8,1,4,7,9,3


BST 中进行查找


对 BST 的查找操作中,以下三种操作是最为简单的。


判断元素是否存在,存在时将返回 true ,反之返回 false


template <class Element>
bool contains(BinaryTreeNode<Element>* root, const Element& target) {
  if (root == nullptr) {
    return false;
  }
  if (root->data == target) {
    return true;
  }
  return contains(root->data < target ? root->right : root->left, target);
}

查找最小值并返回其结点

template <class Element>
BinaryTreeNode<Element>* find_min(BinaryTreeNode<Element>* root) {
  if (root == nullptr) {
    return nullptr;
  }
  return root->left == nullptr ? root : find_min(root->left);
}

查找最大值并返回其结点


template <class Element>
BinaryTreeNode<Element>* find_max(BinaryTreeNode<Element>* root) {
  if (root != nullptr) {
    while (root->right != nullptr) {
      root = root->right;
    }
  }
  return root;
}

16.png

// 获取下界
template <class Element>
BinaryTreeNode* get_lower_bound(BinaryTreeNode* root, const Element& target) {
  auto result = root;
  while (root != nullptr) {
    if (!(root->data < target)) {
      result = root;
      root = root->left;
    } else {
      root = root->right;
    }
  }
  return result;
}
// 获取上界
template <class Element>
BinaryTreeNode* get_upper_bound(BinaryTreeNode* root, const Element& target) {
  auto result = root;
  while (root != nullptr) {
    if (target < root->data) {
      result = root;
      root = root->left;
    } else {
      root = root->right;
    }
  }
  return result;
}


BST 中进行插入与移除操作


插入一个元素在 BST 上的操作十分简单,与 contains 函数一样,以 BST 的定义顺着 BST 向下寻找,直到结点的子结点为 nullptr 为止,将这个插入的结点挂载到这个查找到的子结点上。

17.png


如果是移除操作呢?我们一直忽略了如何在二叉树中移除一个元素,因为正常的一棵二叉树中,如果你想移除一个结点,你需要处理移除结点之后 parent 与 child 之间的关系。这并不好处理,你不确定这些 child 是否可以挂载到 parent 上,继续以 parent 的子结点出现。幸运的是,你可以直接将其值与一个 leaf 交换,并直接删除 leaf 就好,这样你就没有 parent 的担忧了。


这种交换的方式可以用于 BST 吗?当然是完全可以。现在只剩下一个问题了,如何保证在移除结点后,这棵树依然是 BST,稍微转换一下问题的问法:和哪个 leaf 交换不会影响 BST 的结构。


当然是和其前驱或者后继交换后再删除不会影响 BST 的整体结构,如果前驱或后继并不是 leaf,那么递归地交换结点的值,直到结点是 leaf 为止。如果这个结点本身就是 leaf,那不用找了,决定就是你了!


可选择前驱还是后继呢,如果结点有右子树,则代表着其后继在右子树中;如果结点有左子树,则表达其前驱在左子树中。如果没有对应的子树,代表其前驱或者后继需要回到父结点寻找,为了不必要的复杂度,一般选择在其子树中寻找前驱 / 后继结点。如果你找到了一个结点的前驱 / 后继,如果它不是 leaf,那它一定没有后继 / 前驱所对应的子树,被迫你只能一直沿着向前或向后寻找 leaf。


18.png

BST 的平均情况分析


一棵树的所有结点的深度和称为 内部路径长 (internal path length),我们尝试计算 BST 平均路径长。令 D(N) 是具有 N 个结点的某棵树 T 的内部路径长,则有 D(1)=0。一棵 N 结点树是由一棵 i(0≤i<N) 结点左子树和一棵 N−i−1 结点右子树及深度为 0 的根组成的,则可以得到递推关系

19.png

得到平均值 D(N)=O(Nlog⁡N) ,因此结点的预期深度 O(log⁡N) ,但这不意味着所有操作的平均运行时间是 O(log⁡N) 。


Weiss 在书中为我们展示了一个随机生成的 500 个结点的 BST,其期望平均深度为 9.98。

20.png

如果交替插入和删除 Θ(N^2) 次,那么树的平均期望深度将是 Θ(N) 。而下图展示了在 25 万次插入移除随机值之后树的样子,结点的平均深度为 12.51 。其中有可能的一个原因是,在移除结点时 remove 总是倾向于移除结点的前驱,而保留了结点的后继。我们可以尝试随机移除结点前驱或后继的方法来缓解这种不平衡。还有一个原因是一个给定序列,由根 (给定序列的第一个元素) 的值决定这棵树的偏向,如果根元素过大则会导致左子树的结点更多,因为序列中大部位数都小于根,反之则导致右子树结点增多。

21.png

相关文章
|
2月前
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
49 1
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
117 4
|
2月前
|
算法
数据结构之博弈树搜索(深度优先搜索)
本文介绍了使用深度优先搜索(DFS)算法在二叉树中执行遍历及构建链表的过程。首先定义了二叉树节点`TreeNode`和链表节点`ListNode`的结构体。通过递归函数`dfs`实现了二叉树的深度优先遍历,按预序(根、左、右)输出节点值。接着,通过`buildLinkedList`函数根据DFS遍历的顺序构建了一个单链表,展示了如何将树结构转换为线性结构。最后,讨论了此算法的优点,如实现简单和内存效率高,同时也指出了潜在的内存管理问题,并分析了算法的时间复杂度。
56 0
|
11天前
|
存储 运维 监控
探索局域网电脑监控软件:Python算法与数据结构的巧妙结合
在数字化时代,局域网电脑监控软件成为企业管理和IT运维的重要工具,确保数据安全和网络稳定。本文探讨其背后的关键技术——Python中的算法与数据结构,如字典用于高效存储设备信息,以及数据收集、异常检测和聚合算法提升监控效率。通过Python代码示例,展示了如何实现基本监控功能,帮助读者理解其工作原理并激发技术兴趣。
49 20
|
2月前
|
存储 算法 搜索推荐
Python 中数据结构和算法的关系
数据结构是算法的载体,算法是对数据结构的操作和运用。它们共同构成了计算机程序的核心,对于提高程序的质量和性能具有至关重要的作用
|
2月前
|
数据采集 存储 算法
Python 中的数据结构和算法优化策略
Python中的数据结构和算法如何进行优化?
|
2月前
|
算法
数据结构之路由表查找算法(深度优先搜索和宽度优先搜索)
在网络通信中,路由表用于指导数据包的传输路径。本文介绍了两种常用的路由表查找算法——深度优先算法(DFS)和宽度优先算法(BFS)。DFS使用栈实现,适合路径问题;BFS使用队列,保证找到最短路径。两者均能有效查找路由信息,但适用场景不同,需根据具体需求选择。文中还提供了这两种算法的核心代码及测试结果,验证了算法的有效性。
112 23
|
2月前
|
存储 缓存 算法
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
69 5
|
2月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
65 1
|
2月前
|
算法
数据结构之文件系统模拟(树数据结构)
本文介绍了文件系统模拟及其核心概念,包括树状数据结构、节点结构、文件系统类和相关操作。通过构建虚拟环境,模拟文件的创建、删除、移动、搜索等操作,展示了文件系统的基本功能和性能。代码示例演示了这些操作的具体实现,包括文件和目录的创建、移动和删除。文章还讨论了该算法的优势和局限性,如灵活性高但节点移除效率低等问题。
61 0