什么是非精准的 Top K 检索?

简介: 非精准Top K检索通过简化打分机制快速筛选候选结果,牺牲部分排序精度以提升效率。它广泛应用于搜索与推荐系统,常与精准排序结合,形成“召回+排序”两阶段模式,在保证结果质量的同时大幅提升检索效率。

想要优化打分过程,一个很自然的思路就是通过简化打分机制,来降低打分开销。但是简化之后,我们的排序结果就不精准了。这该怎么办呢?这个问题先不着急解决,我们先来看看不精准的排序结果对用户会有什么影响。

其实,在搜索引擎中,排在第一页的结果并不一定是分数最高的。但由于用户在搜索时,本来就没有明确的目标网页,所以只要第一页的网页内容能满足用户的需求,那这就是高质量的检索结果了。

不仅如此,在推荐引擎中也是一样。推荐系统会根据用户的历史行为进行推荐,可推荐的物品非常多。比如说,如果用户曾经购买过《C++ 程序设计》这本书,那接下来我们既可以推荐《C++ 编程实战》,也可以推荐《C++ 编程宝典》。无论我们推荐哪一本,可能对用户来说差别都不大。

我们发现,其实在很多实际的应用场景中,高质量的检索结果并不一定要非常精准,我们只需要保证质量足够高的结果,被包含在最终的 Top K 个结果中就够了。这就是 非精准 Top K 检索的思路。

实际上,在工业界中,我们会使用非精准 Top K 检索结合精准 Top K 检索的方案,来保证高效地检索出高质量的 结果。具体来说,就是把检索排序过程分为两个阶段:
● 第一阶段,我们会进行非精准的 Top K 检索,将所有的检索结果进行简单的初步筛选,留下 k1 个结果,这样处理代价会小很多(这个阶段也被称为召回阶段);
● 第二个阶段,就是使用精准 Top K 检索,也就是使用复杂的打分机制,来对这 k1 个结果进行打分和排序,最终选出 k2 个最精准的结果返回(这个阶段也被称为排序阶段)。

其实,这个流程你应该很熟悉。这就像我们在招聘时,会先根据简历筛选,再根据面试结果进行筛选。简历筛选的效率很高,但是不精准;面试比较耗时,但能更好地判断候选人的能力,这就属于精准挑选了。

再说回到工业界的检索方案,非精准 Top K 检索到底是怎么使用简单的机制,来加速检索过程的呢?加速的效果如何呢?我们一起来看看。

相关文章
|
4月前
|
存储 NoSQL 定位技术
如何快速查询同个区域的人?
通过区域编码将二维坐标转为一维,利用二分查找、跳表或哈希表快速检索同区域用户。虽存在边缘误差,但适用于“附近的人”等非精准场景;对精度要求高的场景(如游戏攻击范围),需结合邻接区域查询以提升准确性。
|
4月前
|
编解码 算法 前端开发
java后端开发学习路线+避坑指南
java后端开发学习路线+避坑指南
|
4月前
|
存储
LSM 树是如何检索的?
LSM树检索先查内存中的C0树,命中则直接返回;未命中再查磁盘C1树。为避免返回过期数据,删除操作会在C0树中标记key为“已删除”,查询时遇此标记即返回失败,并在滚动归并时批量清理C1树中对应数据,实现高效、延迟删除。
|
9月前
|
SQL DataWorks 监控
免费玩转阿里云DataWorks!智能Copilot+用户画像实战,开发效率翻倍攻略
DataWorks是阿里云推出的一站式大数据开发与治理平台,具备数据集成、开发、管理、安全及智能监控等功能,支持多行业数据中台建设。其可视化界面与强大调度能力,助力企业高效完成数据处理与分析。
1308 0
|
4月前
|
数据采集 存储 机器学习/深度学习
搜索引擎的整体架构和工作过程
搜索引擎由爬虫、索引和检索三大系统构成:爬虫负责抓取网页并存储;索引系统对网页去重、分析并构建倒排索引;检索系统通过查询分析、相关性排序等技术,返回精准结果。全过程融合文本分析、机器学习与大规模计算,确保高效准确搜索。
|
4月前
|
算法 搜索推荐
经典的 TF-IDF 算法是什么?
TF-IDF是衡量词与文档相关性的经典算法,由词频(TF)和逆文档频率(IDF)相乘得出。TF反映词在文档中的重要性,IDF体现词的区分度。词频越高、文档频率越低的词,权重越大。通过累加各词项的TF-IDF值,可计算查询与文档的整体相关性,广泛应用于搜索引擎排序。
|
4月前
|
算法 搜索推荐
如何使用概率模型中的 BM25 算法进行打分?
BM25是一种基于概率模型的文本相关性打分算法,可视为TF-IDF的升级版。它综合考虑词频(TF)、逆文档频率(IDF)、文档长度及查询词频,并引入非线性增长与饱和机制。通过参数k1、k2和b调节词频权重、文档长度影响和查询词权重,使评分更精准。广泛应用于Elasticsearch、Lucene等搜索引擎中。
|
4月前
|
存储 索引
如何使用「全量索引结合增量索引」方案?
采用“全量索引+增量索引”方案可高效处理大规模数据更新。系统周期生成不可变的全量索引,提升检索性能;实时新增数据则构建内存中的增量索引,支持快速写入。查询时合并两者结果,并通过删除列表标记已删数据,避免脏数据返回。结合Double Buffer机制,还可实现无锁访问,显著提升系统并发能力与检索效率。(238字)
|
4月前
|
机器学习/深度学习 算法 数据挖掘
聚类算法和局部敏感哈希的区别?
聚类算法与局部敏感哈希均用于高维数据相似检索。局部敏感哈希通过哈希函数降维,速度快但精度低,适合表面特征匹配;聚类算法(如K-Means)保留高维特征,按距离划分簇,类内紧凑、类间分离,更适用于语义相似性检索,精度更高,但计算开销较大。两者权衡在于速度与准确性的取舍。
|
4月前
|
存储 索引
如何利用四叉树动态调整查询范围?
四叉树通过层次化划分空间,根节点代表全区域,子节点编码组合形成区域码。检索时沿路径查找,不足K个结果则回溯父节点扩大范围,实现动态调整查询范围,提升效率。