如何使用概率模型中的 BM25 算法进行打分?

简介: BM25是一种基于概率模型的文本相关性打分算法,可视为TF-IDF的升级版。它综合考虑词频(TF)、逆文档频率(IDF)、文档长度及查询词频,并引入非线性增长与饱和机制。通过参数k1、k2和b调节词频权重、文档长度影响和查询词权重,使评分更精准。广泛应用于Elasticsearch、Lucene等搜索引擎中。

不过,在实际使用中,我们往往不会直接使用 TF-IDF 来计算相关性,而是会以 TF-IDF 为基础,使用向量模型或者概率模型等更复杂的算法来打分。比如说,概率模型中的 BM25(Best Matching 25)算法,这个经典算法就可以看作是 TF-IDF 算法的一种升级。接下来,我们就一起来看看,BM25 算法是怎么打分的。

BM25 算法的一个重要的设计思想是,它认为词频和相关性的关系并不是线性的。也就是说,随着词频的增加,相关性的增加会越来越不明显,并且还会有一个阈值上限。当词频达到阈值以后,那相关性就不会再增长了。

因此,BM25 对于 TF 的使用,设立了一个公式,公式如下:

在这个公式中,随着 tf 的值逐步变大,权重会趋向于 k1 + 1 这个固定的阈值上限(将公式的分子分母同时除以 tf,就能看出这个上限)。其中,k1 是可以人工调整的参数。k1 越大,权重上限越大,收敛速度越慢,表示 tf 越重要。在极端情况下,也就是当 k1 = 0 时,就表示 tf 不重要。比如,在下图中,当 k1 = 3 就比 k1 = 1.2 时的权重上限要高很多。那按照经验来说,我们会把 k1 设为 1.2。

除了考虑词频,BM25 算法还考虑了文档长度的影响,也就是同样一个词项,如果在两篇文档中出现了相同的次数,但一篇文档比较长,而另一篇文档比较短,那一般来说,短文档中这个词项会更重要。这个时候,我们需要在上面的公式中,加入文档长度相关的因子。那么,整个公式就会被改造成如下的样子:

你会看到,分母中的 k1 部分被乘上了文档长度的权重。其中,l 表示当前文档的长度,而 L 表示全部文档的平均长度。l 越长,分母中的 k1 就会越大,整体的相关性权重就会越小。

这个公式中除了 k1,还有一个可以人工调整的参数 b。它的取值范围是 0 到 1,它 代表了文档长度的重要性。当 b 取 0 时,我们可以完全不考虑文档长度的影响;而当 b 取 1 时,k1 的重要性要按照文档长度进行等比例缩放。按照经验,我们会把 b 设置为 0.75,这样的计算效果会比较好。

除此以外,如果查询词比较复杂,比如说一个词项会重复出现,那我们也可以把它看作是一个短文档,用类似的方法计算词项在查询词中的权重。举个例子,如果我们的查询词是「极客们的极客时间课程」,那么「极客」这个词项,其实在查询词中就出现了两次,它的权重应该比「时间」「课程」这些只出现一次的词项更重要。因此,BM25 对词项在查询词中的权重计算公式如下:

其中 tfq 表示词项在查询词 q 中的词频,而 k2 是可以人工调整的参数,它和 k1 的参数作用是类似的。由于查询词一般不会太长,所以词频也不会很大,因此,我们没必要像对待文档一下,用 k1 = 1.2 这么小的范围对它进行控制。我们可以放大词频的作用,把 k2 设置在 0~10 之间。极端情况下,也就是当 k2 取 0 时,表示我们可以完全不考虑查询词中的词项权重。

好了,前面我们说了这么多种权重公式,有基础的权重公式、文档中词项的权重公式和查询词中词项的权重公式。那在实际使用 BM25 算法打分的时候,我们该怎么使用这些公式呢?其实,我们可以回顾一下标准的 TF-IDF,把其中的 TF 进行扩展,变为「文档中词项权重」和「查询词中词项权重」的乘积。这样,我们就得到了 BM25 算法计算一个词项和指定文档相关性的打分公式,公式如下:

你会看到,它由 IDF、文档中词项权重以及查询词中词项权重这三部分共同组成。

如果一个查询词 q 中有多个词项 t,那我们就要把每一个词项 t 和文档 d 的相关性都计算出来,最后累加。这样,我们就得到了这个查询词 q 和文档 d 的相关性打分结果,我们用 score(q,d) 来表示,公式如下:

这就是完整的 BM25 算法的表达式了。尽管这个公式看起来比较复杂,但是经过我们刚才一步一步的拆解,你应该可以很好地理解它了,它其实就是对 TF-IDF 的算法中的 TF 做了更细致的处理而已。其实,BM25 中的 IDF 的部分,我们也还可以优化,比如,基于二值独立模型对它进行退化处理(这是另一个分析相关性的模型,这里就不具体展开说了)之后,我们就可以得到一个和 IDF 相似的优化表示,公式如下:

你可以将它视为 IDF 的变体,用来替换公式中原有的 IDF 部分。

总结来说,BM25 算法就是一个对查询词和文档的相关性进行打分的概率模型算法。BM25 算法考虑了四个因子,分别为 IDF、文档长度、文档中的词频以及查询词中的词频。并且,公式中还加入了 3 个可以人工调整大小的参数,分别是 :k1、k2 和 b。

因此,BM25 算法的效果比 TF-IDF 更好,应用也更广泛。比如说,在 Lucene 和 Elastic Search 这些搜索框架,以及 Google 这类常见的搜索引擎中,就都支持 BM25 排序。不过要用好它,你需要结合我们今天讲的内容,更清楚地理解它的原理。这样才能根据不同的场景,去调整相应的参数,从而取得更好的效果。

相关文章
|
Java 数据安全/隐私保护 Docker
Docker Desktop 启动报错 Unexpected WSL error 问题解决
Docker Desktop 启动报错 Unexpected WSL error 问题解决
1236 0
|
3月前
|
缓存 监控 安全
知识图谱与大模型:谁将引领未来发展?
本文对比了知识图谱与大模型的技术优劣。知识图谱逻辑清晰、可解释性强但构建繁琐;大模型灵活高效却存在黑盒与幻觉风险。实际工作中,二者并非对立,推荐采用RAG等融合架构,用图谱提供可靠支撑,用大模型快速生成,以兼顾系统可靠性与迭代效率。
|
人工智能 运维 安全
CloudOps成熟度模型
介绍CloudOps成熟度模型CARES。
499 0
|
22天前
|
机器学习/深度学习 人工智能 算法
水面5种垃圾目标检测数据集(8000+张图片已划分、已标注)| AI训练适用于目标检测任务
计算机视觉和深度学习技术的发展,为水面漂浮垃圾的自动检测与识别提供了新的解决方案。基于图像识别的智能监测系统可以实时检测水面垃圾类型和分布情况,辅助环保管理部门开展科学治理、数据分析和决策支持。因此,构建一份高质量、水面漂浮垃圾标注数据集,对于水域环境监测、智慧河道管理以及环保科研应用具有重要价值。
326 15
|
19天前
|
监控 前端开发 API
[大模型实战 07] 基于 LlamaIndex ReAct 框架手搓全自动博客监控 Agent
本节我们将理论付诸实践,利用 LlamaIndex 的 ReAct 框架和 Qwen3 模型,手搓一个全自动的博客监控 Agent。通过为大模型接入 RSS 读取、邮件与微信发送等外部工具,让它从‘聊天机器人’进化为‘能干活的数字员工’。
246 10
|
10天前
|
人工智能 安全 API
🦞 给"AI龙虾"穿上盔甲:OpenClaw安装风险全解析与防护指南
本文深度剖析2026年爆火AI框架OpenClaw的五大安全风险(权限过高、公网暴露、数据泄露、恶意插件、指令注入),并提供六大可落地防护策略,涵盖最小权限、网络收敛、加密脱敏、插件验真、人工确认与容器化部署,助力用户安全高效使用。
|
2月前
|
人工智能 安全 测试技术
新手也能用好AI:10个提示词技巧,让测试效率翻倍
不是工具不行,而是你会不会问。同样用AI,有人生成普通用例,有人却挖出弱网登录、暴力破解等深层场景。差距在哪?在于提问方式。本文揭秘4大指令技巧:赋予角色、拆解任务、指定格式、提供范例,助你用精准提示词激发AI潜能,提升测试效率。附10个新手实战模板,从写用例到报Bug,一学就会。掌握“好指令”,让AI成为你的高效助手。
|
9月前
|
消息中间件 JavaScript 安全
HarmonyOSNext性能核弹:用Node-API引爆ArkTS/C++跨语言
本文介绍HarmonyOS Next中通过Node-API实现ArkTS与C++的跨语言交互,适合教育科普学习。内容涵盖三步核心流程:C++模块注册(开店准备)、接口映射(设计菜单)及ArkTS调用(点外卖)。重点包括SO库命名规则、线程安全规范及实战示例(如两数相加)。附带血泪经验总结,助你掌握丝滑跨语言调用技巧。

热门文章

最新文章