01 | 线性结构检索:从数组和链表的原理初窥检索本质

简介: 本文探讨数组与链表的检索原理及效率。数组依托连续存储支持随机访问,适合二分查找,实现O(log n)高效检索;链表则因非连续存储仅支持顺序访问,检索效率为O(n),但插入删除更灵活。通过理解二者存储特性对检索的影响,掌握“合理组织数据以缩小查询范围”的核心思想,为构建高效算法和数据结构打下基础。

今天我们主要探讨的是,对于数组和链表这样的线性结构,我们是怎么检索的。希望通过这个探讨的过程,你能深入理解检索到底是什么。

你可以先思考一个问题:什么是检索?从字面上来理解,检索其实就是将我们所需要的信息,从存储数据的地方高效取出的一种技术。所以,检索效率和数据存储的方式是紧密联系的。具体来说,就是不同的存储方式,会导致不同的检索效率。那么,研究数据结构的存储特点对检索效率的影响就很有必要了。

那今天,我们就从数组和链表的存储特点入手,先来看一看它们是如何进行检索的。

数组和链表有哪些存储特点?

数组的特点相信你已经很熟悉了,就是用一块连续的内存空间来存储数据。那如果我申请不到连续的内存空间怎么办?这时候链表就可以派上用场了。链表可以申请不连续的空间,通过一个指针按顺序将这些空间串起来,形成一条链,链表 也正是因此得名。不过,严格意义上来说,这个叫 单链表。如果没有特别说明,下面我所提到的链表,指的都是只有一个后续指针的单链表。

从图片中我们可以看出,数组和链表分别代表了连续空间和不连续空间的最基础的存储方式,它们是线性表(Linear List)的典型代表。其他所有的数据结构,比如栈、队列、二叉树、B+ 树等,都不外乎是这两者的结合和变化。以栈为例,它本质就是一个限制了读写位置的数组,特点是只允许后进先出。

因此,我们只需要从最基础的数组和链表入手,结合实际应用中遇到的问题去思考解决方案,就能逐步地学习和了解更多的数据结构和检索技术。

那么,数组和链表这两种线性的数据结构的检索效率究竟如何呢?我们来具体看一下。

如何使用二分查找提升数组的检索效率?

首先,如果数据是无序存储的话,无论是数组还是链表,想要查找一个指定元素是否存在,在缺乏数据分布信息的情况下,我们只能从头到尾遍历一遍,才能知道其是否存在。这样的检索效率就是 O(n)。当然,如果数据集不大的话,其实直接遍历就可以了。但如果数据集规模较大的话,我们就需要考虑更高效的检索方式。

对于规模较大的数据集,我们往往是先将它通过排序算法转为有序的数据集,然后通过一些检索算法,比如 二分查找算法 来完成高效的检索。

二分查找也叫折半查找,它的思路很直观,就是将有序数组二分为左右两个部分,通过只在半边进行查找来提升检索效率。那二分查找具体是怎么实现的呢?让我们一起来看看具体的实现步骤。

我们首先会从中间的元素查起,这就会有三种查询结果。

第一种,是中间元素的值等于我们要查询的值。也就是,查到了,那直接返回即可。

如果中间元素的值小于我们想查询的值,那接下来该怎么查呢?这就是第二种情况了。数组是有序的,所以我们以中间元素为分隔,左半边的数组元素一定都小于中间元素,也就是小于我们想查询的值。因此,我们想查询的值只可能存在于右半边的数组中。

对于右半边的数组,我们还是可以继续使用二分查找的思路,再从它的中间查起,重复上面的过程。这样不停地「二分」下去,每次的检索空间都能减少一半,整体的平均查询效率就是 O(log n),远远小于遍历整个数组的代价 O(n)。

同理,对于第三种情况,如果中间元素的值大于我们想查询的值,那么我们就只在左边的数组元素查找即可。

由此可见,合理地组织数据的存储可以提高检索效率。检索的核心思路,其实就是通过合理组织数据,尽可能地快速减少查询范围。在专栏后面的章节中,我们会看到更多的检索算法和技术,其实它们的本质都是通过灵活应用各种数据结构的特点来组织数据,从而达到快速减少查询范围的目的。

链表在检索和动态调整上的优缺点

前面我们说了,数据无序存储的话,链表的检索效率很低。那你可能要问了,有序的链表好像也没法儿提高检索效率啊,这是为什么呢?你可以先停下来自己思考一下,然后再看我下面的讲解。

数组的「连续空间存储」带来了可随机访问的特点。在有序数组应用二分查找时,它以 O(1) 的时间代价就可以直接访问到位于中间的数值,然后以中间的数值为分界线,只选择左边或右边继续查找,从而能快速缩小查询范围。

而链表并不具备「随机访问」的特点。当链表想要访问中间的元素时,我们必须从链表头开始,沿着链一步一步遍历过去,才能访问到期望的数值。如果要访问到中间的节点,我们就需要遍历一半的节点,时间代价已经是 O(n/2) 了。从这个方面来看,由于少了「随机访问位置」的特性,链表的检索能力是偏弱的。

但是,任何事情都有两面性,链表的检索能力偏弱,作为弥补,它在动态调整上会更容易。我们可以以 O(1) 的时间代价完成节点的插入和删除,这是「连续空间」的数组所难以做到的。毕竟如果我们要在有序的数组中插入一个元素,为了保证「数组有序」,我们就需要将数组中排在这个元素后面的元素,全部顺序后移一位,这其实是一个 O(n) 的时间代价了。

因此,在一些需要频繁插入删除数据的场合,有序数组不见得是最合适的选择。另一方面,在数据量非常大的场合,我们也很难保证能申请到连续空间来构建有序数组。因此,学会合理高效地使用链表,也是非常重要的。

如何灵活改造链表提升检索效率?

本质上,我们学习链表,就是在学习「非连续存储空间」的组织方案。我们知道,对于非连续空间,可以用指针将它串联成一个整体。只要掌握了这个思想,我们就可以在不同的应用场景中,设计出适用的数据结构,而不需要拘泥于链表自身的结构限制。

我们可以来看一个简单的改造例子。

比如说,如果我们觉得链表一个节点一个节点遍历太慢,那么我们是不是可以对它做一个简单的改造呢?在掌握了链表的核心思想后,我们很容易就能想到一个改进方案,那就是让链表每个节点不再只是存储一个元素,而是存储一个小的数组。这样我们就能大幅减少节点的数量,从而减少依次遍历节点带来的「低寻址效率」。

比如说,我的链表就只有两个节点,每个节点都存储了一个小的有序数组。这样在检索的时候,我可以用二分查找的思想,先查询第一个节点存储的小数组的末尾元素,看看是否是我们要查询的数字。如果不是,我们要么在第一个节点存储的小数组里,继续二分查找;要么在第二个节点存储的小数组里,继续二分查找。这样的结构就能同时兼顾数组和链表的特点了,而且时间代价也是 O(log n)。

可见,尽管常规的链表只能遍历检索,但是只要我们掌握了 非连续存储空间可以灵活调整 的特性,就可以设计更高效的数据结构和检索算法了。

重点回顾

好了,这一讲的内容差不多了,我们一起回顾一下这一讲的主要内容:以数组和链表为代表的线性结构的检索技术和效率分析。

首先,我们学习了具体的检索方法。对于无序数组,我们可以遍历检索。对于有序数组,我们可以用二分查找。链表具有灵活调整能力,适合用在数据频繁修改的场合。

其次,你应该也开始体会到了检索的一些核心思想:合理组织数据,尽可能快速减少查询范围,可以提升检索效率。

今天的内容其实不难,涉及的核心思想看起来也很简单,但是对于我们掌握检索这门技术非常重要,你一定要好好理解。

随着咱们的课程深入,后面我们会一一解锁更多高级的检索技术和复杂系统,但是核心思路都离不开我们今天所学的内容。

因此,从最基础的数组和链表入手,之后结合具体的问题去思考解决方案,这样可以帮助你一步一步建立起你的知识体系,从而更好地掌握检索原理,达到提高代码效率,提高系统设计能力的目的。

课堂讨论

结合今天学习的数组和链表的检索技术和效率分析,你可以思考一下这两个问题。

  1. 对于有序数组的高效检索,我们为什么使用二分查找算法,而不是 3-7 分查找算法,或 4-6 分查找算法?
    二分查找概率更加均匀,没有偏向任何一端,性能波动小。它更加平衡,整体性能稳定,能避免出现最坏情况,否则如果是一直在大的一边查找,那么查找次数就会变多

  2. 对于单个查询值 k,我们已经熟悉了如何使用二分查找。那给出两个查询值 x 和 y 作为查询范围,如果要在有序数组中查找出大于 x 和小于 y 之间的所有元素,我们应该怎么做呢?
    笔者认为:使用两次二分查找找到数组中最小和最大的元素的下标,再按下标取出来即可

相关文章
|
3月前
|
人工智能 自然语言处理 前端开发
SpringAI+DeepSeek大模型应用开发
SpringAI整合主流大模型,支持对话、函数调用与RAG,提供统一API,简化开发。涵盖多模态、流式传输、会话记忆等功能,助力快速构建AI应用。
|
3月前
|
Java API
用数组实现队列/栈
使用数组实现栈时,可将动态数组尾部作为栈顶,利用ArrayList的add和remove操作实现push、pop等,时间复杂度均为O(1)。若以头部为栈顶,则需借助环形数组CycleArray实现高效操作。同样,基于CycleArray可在首尾分别进行出队和入队,轻松实现队列功能,保证操作效率。
|
3月前
|
存储 监控 NoSQL
07 | NoSQL 检索:为什么日志系统主要用 LSM 树而非 B+ 树?
B+树适用于关系型数据库,但在日志、监控等高频写入场景下性能受限。LSM树通过将数据分内存(C0树)和磁盘(C1树)两层,利用批量写入、WAL日志恢复与滚动合并机制,大幅提升写入效率,更适合写多读少的大数据应用。
|
3月前
|
存储 搜索推荐 定位技术
14 | 空间检索(下):「查找最近的加油站」和「查找附近的人」有何不同?
本文探讨了动态范围内查找“最近的k个”地理对象的高效检索方案。针对查询范围不固定的应用场景,如找最近加油站或医院,传统GeoHash分块检索效率低。文章提出利用四叉树、非满四叉树和前缀树优化:四叉树通过层次化空间划分支持快速范围扩展;非满四叉树动态分裂节点,提升稀疏数据下的存储利用率;前缀树则适用于GeoHash字符串编码的索引,实现高效路径匹配。进一步介绍了k-d树在高维空间的应用局限,并引出高维场景下的近邻检索挑战。
|
3月前
|
机器学习/深度学习 搜索推荐 算法
12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器
本文介绍了非精准 Top K 检索的优化思路与三种实现方法:基于静态质量得分排序截断、胜者表利用词频打分、分层索引两阶段检索。核心思想是将复杂计算移至离线,在线快速截断,降低打分开销。结合精准检索的两阶段架构,可显著提升检索效率,广泛应用于搜索与推荐系统中。
|
3月前
|
搜索推荐 算法 UED
15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?
在搜索引擎与推荐系统中,相似文章去重至关重要。通过向量空间模型将文档转化为高维向量,利用SimHash等局部敏感哈希技术生成紧凑指纹,结合海明距离与抽屉原理分段索引,可高效检索近似重复内容,在百亿网页中快速过滤雷同结果,提升用户体验。该方法适用于文本、图像等多种对象的相似性检测。
|
3月前
|
存储 NoSQL 定位技术
13 | 空间检索(上):如何用 Geohash 实现「查找附近的人」功能?
本文介绍了如何高效实现“查找附近的人”功能,针对大规模系统提出基于区域划分与Geohash编码的检索方案。通过将二维空间划分为带编号的区域,并利用一维编码(如Geohash)建立索引,可大幅提升查询效率。支持非精准与精准两种模式:前者直接查所在区域,后者结合邻近8区域扩大候选集以保证准确性。Geohash将经纬度转为字符串编码,便于存储与比较,广泛应用于Redis等系统。适用于社交、餐饮、出行等LBS场景。
|
3月前
|
存储 算法 关系型数据库
06丨数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?
本节深入探讨磁盘环境下大规模数据检索的挑战与解决方案,重点解析B+树如何通过减少磁盘访问次数、实现索引与数据分离,支持高效查找、范围查询及动态调整,成为数据库索引的核心技术。
|
3月前
|
存储 缓存 NoSQL
17 | 存储系统:从检索技术角度剖析 LevelDB 的架构设计思想
LevelDB是Google开源的高性能键值存储系统,基于LSM树优化,采用跳表、读写分离、SSTable分层与滚动合并等技术,结合BloomFilter、缓存机制与二分查找,显著提升读写效率,广泛应用于工业级系统中。(239字)
|
3月前
|
存储 机器学习/深度学习 算法
16 | 最近邻检索(下):如何用乘积量化实现「拍照识花」功能?
AI时代,图片检索依赖高效向量相似搜索。本文解析聚类算法与局部敏感哈希差异,详解K-Means聚类、乘积量化压缩及倒排索引技术,揭示“以图搜图”背后原理,实现海量高维数据快速精准检索。(238字)