数据结构与算法 搜索

简介: 数据结构与算法 搜索

搜索分两大类

  • 暴力搜索:它通过遍历数据结构实现,时间复杂度为 𝑂(𝑛) 。
  • 自适应搜索:它利用特有的数据组织形式或先验信息,可达到 𝑂(log 𝑛) 甚至 𝑂(1) 的时间复杂度。

二分查找

二分查找 binary search:是一种基于分治策略的高效搜索算法。它利用数据的有序性,每轮减少一半搜索范围,直至找到目标元素或搜索区间为空为止。

由于𝑖 和 𝑗 都是 int 类型,因此 𝑖 + 𝑗 可能会超出 int 类型的取值范围。为了避免大数越界,我们通常采用公式𝑚 = ⌊𝑖 + (𝑗 − 𝑖)/2⌋来计算中点。

def binary_search(lst, val):
    i, j = 0, len(lst)-1
    while i <= j:
        m = int(i + (j - i) / 2)
        if val > lst[m]:
            i = m+1
        elif val < lst[m]:
            j = m-1
        else:
            return lst[m]
    return -1

时间复杂度 𝑂(log𝑛) :在二分循环中,区间每轮缩小一半,循环次数为 log2 𝑛 。

空间复杂度𝑂(1) :指针𝑖 和 𝑗 使用常数大小空间。

二分查找的局限性
  • 二分查找仅适用于有序数据。若输入数据无序,为了使用二分查找而专门进行排序,得不偿失。因为排序算法的时间复杂度通常为𝑂(𝑛 log 𝑛) ,比线性查找和二分查找都更高。对于频繁插入元素的场景,为保持数组有序性,需要将元素插入到特定位置,时间复杂度为𝑂(𝑛) ,也是非常昂贵的。
  • 二分查找仅适用于数组。二分查找需要跳跃式(非连续地)访问元素,而在链表中执行跳跃式访问的效率较低,因此不适合应用在链表或基于链表实现的数据结构。
  • 小数据量下,线性查找性能更佳。在线性查找中,每轮只需要 1 次判断操作;而在二分查找中,需要 1次加法、1 次除法、1 ~ 3 次判断操作、1 次加法(减法),共 4 ~ 6 个单元操作;因此,当数据量 𝑛 较小时,线性查找反而比二分查找更快。

二分查找插入(存在重复元素时)

def binary_search_insert(lst, val):
    lst = list(lst)
    i, j = 0, len(lst)-1
    insert_ix = 0
    while i <= j:
        m = int(i + (j -i)/2)
        if val > lst[m]:
            i = m + 1
        elif val < lst[m]:
            j = m - 1
        else:
            j = m - 1 # 可以将区间往第一个重复数据缩放
            
    insert_ix = i
    lst.insert(insert_ix, val)
    return np.array(lst)

二分查找边界

查找边界
方法1
def binary_search_left_edge(lst, target):
    i, j = 0, len(lst) - 1
    while i <= j:
        m = int(i + (j - i)/2)
        if target > lst[m]:
            i = m + 1
        elif target < lst[m]:
            j = m - 1
        else:
            j = m - 1
    return i
  
def binary_search_right_edge(lst, target):
    i, j = 0, len(lst) - 1
    while i <= j:
        m = int(i + (j - i)/2)
        if target > lst[m]:
            i = m + 1
        elif target < lst[m]:
            j = m - 1
        else:
            i = m + 1
    return j
方法2
def binary_search_right_edge(lst, target):
    ix = binary_search_left_edge(lst, target + 1)
    return ix - 1

哈希优化策略

Q:给定一个整数数组 nums 和一个目标元素 target ,请在数组中搜索“和”为 target 的两个元素,并返回它们的数组索引。返回任意一个解即可。

def hash_method(lst, target):
    print(lst, target)
    map = dict()
    for ix, item in enumerate(lst):
        target_key = target - item
        if target_key not in map.keys():
            map[item] = ix
        else:
            return [ix, map[target_key]], [lst[ix], lst[map[target_key]]]
    return None

重识搜索算法

  • 通过遍历数据结构来定位目标元素,例如数组、链表、树和图的遍历等。
  • 利用数据组织结构或数据包含的先验信息,实现高效元素查找,例如二分查找、哈希查找和二叉搜索树查找等。

线性搜索
  • 通用性较好,无须任何数据预处理操作。假如我们仅需查询一次数据,那么其他三种方法的数据预处理的时间比线性搜索的时间还要更长。
  • 适用于体量较小的数据,此情况下时间复杂度对效率影响较小。
  • 适用于数据更新频率较高的场景,因为该方法不需要对数据进行任何额外维护。
二分查找
  • 适用于大数据量的情况,效率表现稳定,最差时间复杂度为 𝑂(log 𝑛) 。
  • 数据量不能过大,因为存储数组需要连续的内存空间。
  • 不适用于高频增删数据的场景,因为维护有序数组的开销较大。
哈希查找
  • 适合对查询性能要求很高的场景,平均时间复杂度为 𝑂(1) 。
  • 不适合需要有序数据或范围查找的场景,因为哈希表无法维护数据的有序性。
  • 对哈希函数和哈希冲突处理策略的依赖性较高,具有较大的性能劣化风险。
  • 不适合数据量过大的情况,因为哈希表需要额外空间来最大程度地减少冲突,从而提供良好的查询性能。
树查找
  • 适用于海量数据,因为树节点在内存中是离散存储的。
  • 适合需要维护有序数据或范围查找的场景。
  • 在持续增删节点的过程中,二叉搜索树可能产生倾斜,时间复杂度劣化至𝑂(𝑛) 。
  • 若使用 AVL 树或红黑树,则各项操作可在𝑂(log 𝑛) 效率下稳定运行,但维护树平衡的操作会增加额外开销

重点回顾

  • 二分查找依赖于数据的有序性,通过循环逐步缩减一半搜索区间来实现查找。它要求输入数据有序,且仅适用于数组或基于数组实现的数据结构。
  • 暴力搜索通过遍历数据结构来定位数据。线性搜索适用于数组和链表,广度优先搜索和深度优先搜索适用于图和树。此类算法通用性好,无须对数据预处理,但时间复杂度 𝑂(𝑛) 较高。
  • 哈希查找、树查找和二分查找属于高效搜索方法,可在特定数据结构中快速定位目标元素。此类算法效率高,时间复杂度可达 𝑂(log 𝑛) 甚至 𝑂(1) ,但通常需要借助额外数据结构。
  • 实际中,我们需要对数据体量、搜索性能要求、数据查询和更新频率等因素进行具体分析,从而选择合适的搜索方法。
  • 线性搜索适用于小型或频繁更新的数据;二分查找适用于大型、排序的数据;哈希查找适合对查询效率要求较高且无须范围查询的数据;树查找适用于需要维护顺序和支持范围查询的大型动态数据。
  • 用哈希查找替换线性查找是一种常用的优化运行时间的策略,可将时间复杂度从 𝑂(𝑛) 降低至 𝑂(1) 。


目录
相关文章
|
24天前
|
存储 算法 Java
Java中,树与图的算法涉及二叉树的前序、中序、后序遍历以及DFS和BFS搜索。
【6月更文挑战第21天】Java中,树与图的算法涉及二叉树的前序、中序、后序遍历以及DFS和BFS搜索。二叉树遍历通过访问根、左、右子节点实现。DFS采用递归遍历图的节点,而BFS利用队列按层次访问。以下是简化的代码片段:[Java代码略]
22 4
|
13天前
|
数据采集 算法 JavaScript
揭开JavaScript字符串搜索的秘密:indexOf、includes与KMP算法
JavaScript字符串搜索涵盖`indexOf`、`includes`及KMP算法。`indexOf`返回子字符串位置,`includes`检查是否包含子字符串。KMP是高效的搜索算法,尤其适合长模式匹配。示例展示了如何在数据采集(如网页爬虫)中使用这些方法,结合代理IP进行安全搜索。代码示例中,搜索百度新闻结果并检测是否含有特定字符串。学习这些技术能提升编程效率和性能。
揭开JavaScript字符串搜索的秘密:indexOf、includes与KMP算法
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战
Python实现GBDT(梯度提升树)分类模型(GradientBoostingClassifier算法)并应用网格搜索算法寻找最优参数项目实战
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现SSA智能麻雀搜索算法优化支持向量机回归模型(SVR算法)项目实战
Python实现SSA智能麻雀搜索算法优化支持向量机回归模型(SVR算法)项目实战
|
4天前
|
机器学习/深度学习 数据采集 算法
Python实现SSA智能麻雀搜索算法优化支持向量机分类模型(SVC算法)项目实战
Python实现SSA智能麻雀搜索算法优化支持向量机分类模型(SVC算法)项目实战
|
5天前
|
机器学习/深度学习 人工智能 分布式计算
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
机器学习中的超参数调优是提升模型性能的关键步骤,包括网格搜索、随机搜索、贝叶斯优化和遗传算法等方法。网格搜索通过穷举所有可能的超参数组合找到最优,但计算成本高;随机搜索则在预设范围内随机采样,降低计算成本;贝叶斯优化使用代理模型智能选择超参数,效率高且适应性强;遗传算法模拟生物进化,全局搜索能力强。此外,还有多目标优化、异步并行优化等高级技术,以及Hyperopt、Optuna等优化库来提升调优效率。实践中,应结合模型类型、数据规模和计算资源选择合适的调优策略。
9 0
算法金 | 最难的来了:超参数网格搜索、贝叶斯优化、遗传算法、模型特异化、Hyperopt、Optuna、多目标优化、异步并行优化
|
9天前
|
算法
基于Dijkstra算法的最优行驶路线搜索matlab仿真,以实际城市复杂路线为例进行测试
使用MATLAB2022a实现的Dijkstra算法在城市地图上搜索最优行驶路线的仿真。用户通过鼠标点击设定起点和终点,算法规划路径并显示长度。测试显示,尽管在某些复杂情况下计算路径可能与实际有偏差,但多数场景下Dijkstra算法能找到接近最短路径。核心代码包括图的显示、用户交互及Dijkstra算法实现。算法基于图论,不断更新未访问节点的最短路径。测试结果证明其在简单路线及多数复杂城市路况下表现良好,但在交通拥堵等特殊情况下需结合其他数据提升准确性。
|
24天前
|
存储 算法 Java
Java查找算法概览:二分查找适用于有序数组,通过比较中间元素缩小搜索范围;哈希查找利用哈希函数快速定位,示例中使用HashMap存储键值对,支持多值关联。
【6月更文挑战第21天】Java查找算法概览:二分查找适用于有序数组,通过比较中间元素缩小搜索范围;哈希查找利用哈希函数快速定位,示例中使用HashMap存储键值对,支持多值关联。简单哈希表实现未涵盖冲突解决和删除操作。
19 1
|
24天前
|
C++
【洛谷 P1044】[NOIP2003 普及组] 栈 题解(递归+记忆化搜索)
**NOIP2003普及组栈问题**:给定操作数序列1到n,仅允许push(进栈)和pop(出栈)操作。目标是计算所有可能的输出序列总数。输入包含一个整数n(1≤n≤18)。示例输入3,输出5。当队列空时返回1,栈空则只能入栈,栈非空时可入栈或出栈。AC C++代码利用记忆化搜索求解。
17 1
|
4天前
|
机器学习/深度学习 数据采集 自然语言处理
Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战
Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战