游客fmnrqz7kdmyom_个人页

游客fmnrqz7kdmyom

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2025年12月

12.12 09:34:53

发表了文章 2025-12-12 09:34:53

4.1 服务端(DevBox)-项目创建

通过Sealos创建SpringBoot工程zxyf-management，配置Java环境与容器资源，结合Cursor智能开发工具实现云端编码、一键启动与部署，快速构建可访问的云原生应用。
12.12 09:34:18

发表了文章 2025-12-12 09:34:18

20 | 推荐引擎：没有搜索词，「头条」怎么找到你感兴趣的文章？

每天下拉刷新，资讯App就能推荐你感兴趣的头条，这背后依赖的是推荐引擎的检索技术。与搜索不同，推荐系统通过用户行为构建画像，结合内容标签与协同过滤算法，实现个性化召回。基于内容的推荐匹配兴趣，协同过滤则挖掘用户或物品相似性，再经多层排序筛选出最优结果。混合策略让推荐更精准高效。
12.12 09:33:51

发表了文章 2025-12-12 09:33:51

19 | 广告系统：广告引擎如何做到在 0.1s 内返回广告信息？

广告系统是互联网核心营收支柱，支撑Google、Facebook等巨头超80%收入。本文详解其高性能引擎架构：通过标签过滤、树形分片、向量检索与非精准打分等技术，在0.1秒内完成百万级广告实时召回与排序，实现千人千面精准投放。
12.12 09:33:21

发表了文章 2025-12-12 09:33:21

18 | 搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

搜索引擎通过爬虫抓取网页，经索引系统处理生成倒排索引，并在检索系统中结合分词、纠错、推荐等技术，利用位置信息和最小窗口排序，精准返回用户所需结果，实现高效搜索。
12.12 09:33:00

发表了文章 2025-12-12 09:33:00

17 | 存储系统：从检索技术角度剖析 LevelDB 的架构设计思想

LevelDB是Google开源的高性能键值存储系统，基于LSM树优化，采用跳表、读写分离、SSTable分层与Compaction等技术，结合BloomFilter、索引分离及LRU缓存，显著提升读写效率，广泛应用于工业级系统。
12.12 09:32:35

发表了文章 2025-12-12 09:32:35

特别加餐 | 高性能检索系统中的设计漫谈

本文系统梳理了高性能检索系统中的四大核心设计思想：索引与数据分离、减少磁盘IO、读写分离和分层处理。通过案例解析与对比分析，深入探讨其本质与适用场景，并总结通用实践经验，帮助开发者在实际系统设计中提升性能与可维护性，构建高效稳定的高并发系统。
12.12 09:32:07

发表了文章 2025-12-12 09:32:07

16 | 最近邻检索（下）：如何用乘积量化实现「拍照识花」功能？

随着AI发展，以图搜图、拍图识物等应用日益普及，其核心是高效图片检索技术。本文深入解析如何通过聚类算法（如K-Means）与乘积量化结合倒排索引，实现高维图像特征向量的快速近似最近邻搜索，在降低存储开销的同时提升检索效率，广泛应用于图像搜索、推荐系统等领域。
12.12 09:31:43

发表了文章 2025-12-12 09:31:43

15 | 最近邻检索（上）：如何用局部敏感哈希快速过滤相似文章？

在搜索引擎与推荐系统中，相似文章去重至关重要。通过向量空间模型将文档转为高维向量，利用SimHash等局部敏感哈希技术生成紧凑指纹，结合海明距离与抽屉原理分段索引，可高效近似检索相似内容，避免重复展示，提升用户体验。该方法广泛应用于网页去重、图像识别等领域。
12.12 09:30:52

发表了文章 2025-12-12 09:30:52

14 | 空间检索（下）：「查找最近的加油站」和「查找附近的人」有何不同？

本文探讨了动态范围内“查找最近的k个目标”问题，如导航找加油站。针对查询范围不固定场景，提出利用四叉树、非满四叉树和前缀树优化检索效率与存储空间。通过树形结构实现快速范围扩展，避免重复查询，提升性能。
12.12 09:30:25

发表了文章 2025-12-12 09:30:25

13 | 空间检索（上）：如何用 Geohash 实现「查找附近的人」功能？

本文介绍了如何高效实现“查找附近的人”功能，提出基于Geohash的区域编码与索引方案。通过将二维坐标转为一维编码，结合非精准与精准检索策略，利用跳表、二叉树等数据结构提升查询效率，适用于大规模地理位置服务场景。
12.12 09:29:53

发表了文章 2025-12-12 09:29:53

12 | 非精准 Top K 检索：如何给检索结果的排序过程装上加速器？

本文介绍了非精准Top K检索的优化思路与实现方法，通过简化打分机制提升检索效率。重点讲解了三种加速技术：基于静态质量得分排序截断、胜者表利用词频打分、以及分层索引的两层检索策略。这些方法将计算前置至离线阶段，在线仅做快速截断，大幅降低开销。结合精准排序的两阶段架构，广泛应用于搜索与推荐系统，实现高效召回与精度平衡。
12.12 09:29:27

发表了文章 2025-12-12 09:29:27

11｜精准 Top K 检索：搜索结果是怎么进行打分排序的？

搜索引擎排序核心在于打分与Top K检索。本文详解三种打分算法：经典TF-IDF衡量词频与区分度；BM25在此基础上引入文档长度、词频饱和等优化，支持参数调节；机器学习则融合上百因子自动学习权重，提升排序精度。最后通过堆排序高效实现Top K结果返回，兼顾性能与效果。适合搜索、推荐等场景。
12.12 09:28:49

发表了文章 2025-12-12 09:28:49

10 | 索引拆分：大规模检索系统如何使用分布式技术加速检索？

在大规模检索系统中，分布式技术通过拆分倒排索引提升性能。基于文档的水平拆分将数据随机分片，各服务器并行处理，降低单次查询耗时，且易于扩展与维护；而基于关键词的垂直拆分虽减少请求复制，但易引发负载不均与运维复杂。工业界普遍采用文档拆分，兼顾效率与可维护性。
12.12 09:28:17

发表了文章 2025-12-12 09:28:17

09 | 索引更新：刚发布的文章就能被搜到，这是怎么做到的？

本文讲解工业界如何高效更新倒排索引。针对小规模索引，采用Double Buffer机制实现无锁更新；对于大规模索引，则使用全量索引结合增量索引方案，并通过完全重建、再合并或滚动合并等方式处理增量数据，兼顾性能与资源开销。
12.12 09:27:47

发表了文章 2025-12-12 09:27:47

08 | 索引构建：搜索引擎如何为万亿级别网站生成索引？

针对超大规模数据，如搜索引擎需处理万亿级网页，倒排索引远超内存容量。为此，工业界采用分治与多路归并思想：先将文档集拆分为小块，在内存中为每块构建倒排索引并写入磁盘临时文件；随后通过多路归并合并临时文件，生成全局有序的最终倒排文件。该过程类似MapReduce框架，支持分布式加速。检索时，优先将词典加载至内存，用哈希表或B+树快速定位关键词，再从磁盘读取对应posting list。对过长的posting list，则采用分层索引（如跳表）或缓存机制（如LRU），仅加载必要数据块，减少IO开销，提升效率。
12.12 09:27:16

发表了文章 2025-12-12 09:27:16

07 | NoSQL 检索：为什么日志系统主要用 LSM 树而非 B+ 树？

B+树适用于读多写少场景，但在日志、监控等高频写入的大数据场景中性能受限。LSM树通过将数据分内存C0树和磁盘C1树，利用批量写入、WAL日志恢复与滚动合并机制，以顺序写替代随机写，大幅提升写入性能，更适配写密集型应用，成为多数NoSQL数据库的核心存储结构。
12.12 09:26:11

发表了文章 2025-12-12 09:26:11

06丨数据库检索：如何使用 B+ 树对海量磁盘数据建立索引？

本节探讨磁盘环境下大规模数据检索的挑战与解决方案，重点解析B+树如何通过索引与数据分离、多阶平衡结构及双向链表优化，实现高效的磁盘I/O利用和范围查询，广泛应用于数据库等工业级系统。
12.12 09:25:37

发表了文章 2025-12-12 09:25:37

特别加餐丨倒排检索加速（二）：如何对联合查询进行加速？

本文深入探讨工业界倒排索引中联合查询的四大加速方法：调整次序法通过优化计算顺序提升效率；快速多路归并法利用跳表加速多集合交集运算；预先组合法对高频查询提前计算结果；缓存法则通过LRU机制缓存热点查询，减少重复计算。四种方法从数学、算法与工程角度协同优化复杂检索，显著提升系统性能。
12.12 09:25:07

发表了文章 2025-12-12 09:25:07

特别加餐 | 倒排检索加速（一）：工业界如何利用跳表、哈希表、位图进行加速？

本文深入解析倒排索引中求交集的三大加速技术：跳表、哈希表与位图，并介绍工业级优化方案Roaring Bitmap。通过组合基础数据结构，实现高效检索，揭示复杂系统背后的简洁原理。
12.12 09:24:20

发表了文章 2025-12-12 09:24:20

测一测丨检索算法基础，你掌握了多少？

本文介绍了多种数据结构的查询、插入及冲突处理机制。对比了无序与有序数据结构的查询效率，分析了二叉检索树、跳表、哈希表、位图、布隆过滤器和倒排索引的特性与适用场景，涵盖时间空间复杂度、平衡性、遍历性能及实际应用设计原则。（238字）
12.12 09:23:53

发表了文章 2025-12-12 09:23:53

05 | 倒排索引：如何从海量数据中查询同时带有「极」和「客」的唐诗？

本文通过唐诗检索的类比，深入浅出地讲解了正排索引与倒排索引的核心原理。正排索引以文档ID为键，适合精确查找；而倒排索引以关键词为键，指向包含该词的文档列表，极大提升了多关键词联合查询的效率。文章详细介绍了倒排索引的构建步骤：文档编号、关键词解析、哈希表插入及链表归并查询，并解释了如何通过有序链表的归并实现高效交集运算。此外，还探讨了多字段索引（如作者）、敏感词检测、内存优化等实际应用问题，揭示了倒排索引在搜索引擎、推荐系统等大规模检索场景中的核心地位。
12.12 09:23:24

发表了文章 2025-12-12 09:23:24

04 | 状态检索：如何快速判断一个用户是否存在？

本文探讨如何高效判断对象是否存在，对比有序数组、二叉树、哈希表的查询性能，引出位图与布隆过滤器。位图利用数组按位存储，空间效率高；布隆过滤器通过多哈希函数映射到位数组，实现O(1)查询，虽存在误判但省空间，适用于注册去重、爬虫判重等场景。删除问题可通过引用计数或重建解决。
12.12 09:22:56

发表了文章 2025-12-12 09:22:56

03 | 哈希检索：如何根据用户 ID 快速查询用户信息？

本文介绍了哈希表的原理与实现。通过哈希函数将键转化为数组下标，利用数组随机访问特性实现O(1)查询。针对哈希冲突，讲解了开放寻址法（线性探查、二次探查、双散列）和链表法两种解决方案，并分析其优劣。最后指出哈希表的缺点：空间开销大、不支持有序操作。实际应用中常结合链表或红黑树优化性能。
12.12 09:22:24

发表了文章 2025-12-12 09:22:24

02 | 非线性结构检索：数据频繁变化的情况下，如何高效检索？

本文通过文件查找引出树状结构的优势，探讨如何利用非线性结构提升数据检索效率。重点分析二叉检索树与跳表如何实现二分查找，解决链表无法随机访问的问题，并比较二者在平衡性、插入效率及实际应用中的优劣，揭示高效检索的核心原理。
12.12 09:21:53

发表了文章 2025-12-12 09:21:53

01 | 线性结构检索：从数组和链表的原理初窥检索本质

本文探讨数组与链表的检索原理及效率。数组支持随机访问，适合二分查找，检索效率为O(log n)；链表需顺序遍历，效率为O(n)，但插入删除更高效。通过合理组织数据结构，如结合数组与链表优点，可优化检索性能，核心在于快速缩小查询范围。

发表了文章 2025-12-12

17 | 存储系统：从检索技术角度剖析 LevelDB 的架构设计思想
发表了文章 2025-12-12

20 | 推荐引擎：没有搜索词，「头条」怎么找到你感兴趣的文章？
发表了文章 2025-12-12

特别加餐 | 高性能检索系统中的设计漫谈
发表了文章 2025-12-12

特别加餐丨倒排检索加速（二）：如何对联合查询进行加速？
发表了文章 2025-12-12

06丨数据库检索：如何使用 B+ 树对海量磁盘数据建立索引？
发表了文章 2025-12-12

测一测丨检索算法基础，你掌握了多少？
发表了文章 2025-12-12

13 | 空间检索（上）：如何用 Geohash 实现「查找附近的人」功能？
发表了文章 2025-12-12

11｜精准 Top K 检索：搜索结果是怎么进行打分排序的？
发表了文章 2025-12-12

07 | NoSQL 检索：为什么日志系统主要用 LSM 树而非 B+ 树？
发表了文章 2025-12-12

08 | 索引构建：搜索引擎如何为万亿级别网站生成索引？
发表了文章 2025-12-12

12 | 非精准 Top K 检索：如何给检索结果的排序过程装上加速器？
发表了文章 2025-12-12

18 | 搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？
发表了文章 2025-12-12

特别加餐 | 倒排检索加速（一）：工业界如何利用跳表、哈希表、位图进行加速？
发表了文章 2025-12-12

09 | 索引更新：刚发布的文章就能被搜到，这是怎么做到的？
发表了文章 2025-12-12

10 | 索引拆分：大规模检索系统如何使用分布式技术加速检索？
发表了文章 2025-12-12

14 | 空间检索（下）：「查找最近的加油站」和「查找附近的人」有何不同？
发表了文章 2025-12-12

4.1 服务端(DevBox)-项目创建
发表了文章 2025-12-12

19 | 广告系统：广告引擎如何做到在 0.1s 内返回广告信息？
发表了文章 2025-12-12

15 | 最近邻检索（上）：如何用局部敏感哈希快速过滤相似文章？
发表了文章 2025-12-12

16 | 最近邻检索（下）：如何用乘积量化实现「拍照识花」功能？

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

游客fmnrqz7kdmyom_个人页

个人介绍

擅长的技术

17 | 存储系统：从检索技术角度剖析 LevelDB 的架构设计思想

20 | 推荐引擎：没有搜索词，「头条」怎么找到你感兴趣的文章？

特别加餐 | 高性能检索系统中的设计漫谈

特别加餐丨倒排检索加速（二）：如何对联合查询进行加速？

06丨数据库检索：如何使用 B+ 树对海量磁盘数据建立索引？

测一测丨检索算法基础，你掌握了多少？

13 | 空间检索（上）：如何用 Geohash 实现「查找附近的人」功能？

11｜精准 Top K 检索：搜索结果是怎么进行打分排序的？

07 | NoSQL 检索：为什么日志系统主要用 LSM 树而非 B+ 树？

08 | 索引构建：搜索引擎如何为万亿级别网站生成索引？

12 | 非精准 Top K 检索：如何给检索结果的排序过程装上加速器？

18 | 搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

特别加餐 | 倒排检索加速（一）：工业界如何利用跳表、哈希表、位图进行加速？

09 | 索引更新：刚发布的文章就能被搜到，这是怎么做到的？

10 | 索引拆分：大规模检索系统如何使用分布式技术加速检索？

14 | 空间检索（下）：「查找最近的加油站」和「查找附近的人」有何不同？

4.1 服务端(DevBox)-项目创建

19 | 广告系统：广告引擎如何做到在 0.1s 内返回广告信息？

15 | 最近邻检索（上）：如何用局部敏感哈希快速过滤相似文章？

16 | 最近邻检索（下）：如何用乘积量化实现「拍照识花」功能？