搜索推荐

首页 标签 搜索推荐
# 搜索推荐 #
关注
32700内容
特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?
本文深入解析倒排索引中求交集的三大加速技术:跳表、哈希表与位图,并介绍工业级优化方案Roaring Bitmap。通过组合基础数据结构,实现高效检索,揭示复杂系统背后的简洁原理。
09 | 索引更新:刚发布的文章就能被搜到,这是怎么做到的?
本文讲解工业界如何高效更新倒排索引。针对小规模索引,采用Double Buffer机制实现无锁更新;对于大规模索引,则使用全量索引结合增量索引方案,并通过完全重建、再合并或滚动合并等方式处理增量数据,兼顾性能与资源开销。
10 | 索引拆分:大规模检索系统如何使用分布式技术加速检索?
在大规模检索系统中,分布式技术通过拆分倒排索引提升性能。基于文档的水平拆分将数据随机分片,各服务器并行处理,降低单次查询耗时,且易于扩展与维护;而基于关键词的垂直拆分虽减少请求复制,但易引发负载不均与运维复杂。工业界普遍采用文档拆分,兼顾效率与可维护性。
14 | 空间检索(下):「查找最近的加油站」和「查找附近的人」有何不同?
本文探讨了动态范围内“查找最近的k个目标”问题,如导航找加油站。针对查询范围不固定场景,提出利用四叉树、非满四叉树和前缀树优化检索效率与存储空间。通过树形结构实现快速范围扩展,避免重复查询,提升性能。
19 | 广告系统:广告引擎如何做到在 0.1s 内返回广告信息?
广告系统是互联网核心营收支柱,支撑Google、Facebook等巨头超80%收入。本文详解其高性能引擎架构:通过标签过滤、树形分片、向量检索与非精准打分等技术,在0.1秒内完成百万级广告实时召回与排序,实现千人千面精准投放。
15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?
在搜索引擎与推荐系统中,相似文章去重至关重要。通过向量空间模型将文档转为高维向量,利用SimHash等局部敏感哈希技术生成紧凑指纹,结合海明距离与抽屉原理分段索引,可高效近似检索相似内容,避免重复展示,提升用户体验。该方法广泛应用于网页去重、图像识别等领域。
2、排序
排序算法分为比较类和非比较类。比较类包括快排、归并、堆排(平均时间O(n log n))和插入排序(O(n²)),适用于不同数据规模与有序度;非比较类如计数、桶、基数排序,可达到O(n),依赖数据特征。实际应用中常结合多种算法优化性能。
04 | 状态检索:如何快速判断一个用户是否存在?
本文探讨如何高效判断对象是否存在,对比有序数组、二叉树、哈希表的查询性能,引出位图与布隆过滤器。位图利用数组按位存储,空间效率高;布隆过滤器通过多哈希函数映射到位数组,实现O(1)查询,虽存在误判但省空间,适用于注册去重、爬虫判重等场景。删除问题可通过引用计数或重建解决。
线性结构检索:从数组和链表的原理初窥检索本质
本节深入解析数组与链表的存储特性及其对检索效率的影响。数组支持随机访问,适合二分查找,检索效率为O(log n);链表虽检索较慢,但插入删除高效,适用于频繁动态调整场景。通过改造链表结构,如结合数组提升检索性能,揭示了数据组织方式对检索的核心作用,帮助理解“快速缩小查询范围”这一检索本质。
最近邻检索(上
在搜索引擎与推荐系统中,相似文章去重至关重要。本文介绍基于向量空间模型的近邻检索方法,将文档表示为TF-IDF加权的高维向量,通过计算向量间相似度识别重复内容。为提升检索效率,引入局部敏感哈希(LSH)技术,快速筛选潜在相似文章,有效优化用户体验。
免费试用