PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 在大数据时代,有效的信息检索技术对于从海量数据中提取相关信息至关重要。国立台湾大学的研究者提出了一种名为PAIRDISTILL的新方法,通过成对相关性蒸馏,利用成对重排序器提供的细粒度训练信号,显著提升了密集检索模型的性能。该方法不仅在MS MARCO等基准测试中表现出色,还在领域外和零样本场景中展现出强大的泛化能力,为密集检索领域提供了新的研究方向。

在当今海量数据时代,有效的信息检索(IR)技术对于从庞大数据集中提取相关信息至关重要。近年来,密集检索技术展现出了相比传统稀疏检索方法更加显著的效果。

现有的方法主要从点式重排序器中蒸馏知识,这些重排序器为文档分配绝对相关性分数,因此在进行比较时面临不一致性的挑战。为解决这一问题,来自国立台湾大学的研究者Chao-Wei Huang和Yun-Nung Chen提出了一种新颖的方法——成对相关性蒸馏(Pairwise Relevance Distillation, PAIRDISTILL)。

PAIRDISTILL的主要研究目的是:

  1. 利用成对重排序的优势,为密集检索模型的训练提供更细粒度的区分。
  2. 提高密集检索模型在各种基准测试中的性能,包括领域内和领域外的评估。
  3. 探索一种可以跨不同架构和领域进行一致性改进的方法。

方法改进详细描述

PAIRDISTILL方法的核心思想是利用成对重排序器提供的细粒度训练信号来增强密集检索模型的训练。该方法的主要组成部分包括:

成对重排序:与传统的点式重排序不同,成对重排序同时比较两个文档,估计一个文档相对于另一个文档与查询的相关性。形式上,给定查询q和两个文档di和dj,成对重排序器估计的概率为:

这种方法通过仅建模di和dj的相对相关性来缓解校准问题。

成对相关性蒸馏:PAIRDISTILL的目标是让密集检索器模仿成对重排序器的输出分布。密集检索器预测的成对相关性分布定义为:

训练目标是最小化密集检索器和成对重排序器的成对相关性分布之间的KL散度:

迭代训练策略:为了提高检索器的性能并避免过拟合固定的文档集,PAIRDISTILL采用了迭代训练策略。每次迭代中,使用前一次迭代训练的检索器构建索引并检索前k个文档,然后进行重排序和微调。

综合损失函数:PAIRDISTILL的完整损失函数包括对比学习损失、点式知识蒸馏损失和成对相关性蒸馏损失:

其中λKD和λpair是表示蒸馏损失权重的超参数。

下图2展示了PAIRDISTILL方法的整体框架:

(图2:PAIRDISTILL方法框架示意图)

这种方法不仅可以应用于有监督的数据集,还可以用于零样本域适应任务。在没有标记训练数据的情况下,可以使用以下简化的损失函数:

通过这种创新的方法,PAIRDISTILL能够从成对比较中蒸馏知识,使模型学习到更细致的文档相关性区分,从而提高密集检索模型的整体性能。

实验设置

研究者进行了广泛的实验来验证PAIRDISTILL方法的有效性。主要的实验设置如下:

  1. 数据集:- MS MARCO:用作监督数据集,包含502K训练查询和8.8百万段落。- TREC DL19和DL20:用于额外的领域内评估。- BEIR:包含18个检索数据集,用于评估领域外检索性能。- LoTTE:包含来自StackExchange的问题和答案,涵盖多个主题。
  2. 评估指标:- MS MARCO:使用MRR@10和Recall@1000- TREC和BEIR:使用NDCG@10- LoTTE:使用Success@5
  3. 模型实现:- 初始检索器:采用预训练的ColBERTv2- 点式重排序器:使用MiniLM- 成对重排序器:采用duoT5-3B
  4. 训练细节:- 每个查询检索top-100段落- 对每个查询采样50对段落进行成对重排序- 使用4个V100 GPU进行训练

主要实验结果

PAIRDISTILL在多个基准测试中都取得了显著的性能提升。主要结果如下:

  1. 领域内评估:在MS MARCO开发集上,PAIRDISTILL达到了40.7的MRR@10,优于所有基线模型,包括其初始化模型ColBERTv2(39.7)。在TREC DL19上也达到了最佳性能,在TREC DL20上达到了第二佳性能。
  2. 领域外评估:- BEIR数据集:PAIRDISTILL在18个任务中的6个达到了最佳性能,在16个数据集上持续优于ColBERTv2。- LoTTE数据集:在搜索和论坛子集中都达到了最先进的性能。
  3. 开放域问答:在NaturalQuestions、TriviaQA和SQuAD数据集上,PAIRDISTILL在Recall@5指标上持续优于所有基线模型。

性能改进分析

为了深入理解PAIRDISTILL的性能改进,研究者进行了一系列消融实验和分析:

  1. 消融研究:- 移除成对蒸馏损失(Lpair)会导致性能下降到39.7。- 移除点式蒸馏损失(LKD)会进一步降低性能至39.4。- 这表明两种蒸馏损失都对模型性能有重要贡献。
  2. 不同初始化:使用bert-base-uncased初始化时,PAIRDISTILL仍能达到40.3的性能,证明该方法对初始化不敏感。
  3. 跨架构有效性:在DPR架构上的实验显示,PAIRDISTILL也能持续提升性能,从34.8提升到36.8,证明该方法可以跨不同的密集检索架构有效应用。
  4. 迭代训练效果:实验表明,第二次迭代可以进一步提升性能,之后趋于收敛。
  5. 零样本域适应:在FiQA、BioASQ和Climate-FEVER数据集上的实验显示,PAIRDISTILL在零样本域适应任务中也能有效提升性能。

结论与影响

PAIRDISTILL方法通过利用成对重排序器提供的细粒度训练信号,显著提升了密集检索模型的性能。该方法在多个基准测试中都达到了最先进的水平,不仅在领域内评估中表现出色,在领域外和零样本场景中也展现了强大的泛化能力。

这项研究为密集检索领域提供了新的研究方向,展示了利用更细粒度的相关性信息来改进检索模型的潜力。PAIRDISTILL方法的成功也为其他自然语言处理任务中的知识蒸馏技术提供了启发。

尽管如此,研究者也指出了该方法的一些局限性,主要是在训练过程中可能需要更多的训练对,这可能会增加计算资源的需求。未来的研究方向可能包括如何在保持性能的同时减少所需的训练对数量,以及进一步探索该方法在其他相关任务中的应用。

https://avoid.overfit.cn/post/4e825b6cc5b44ce7962f59c873afb7e4

目录
相关文章
|
18天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
14天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2554 20
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
14天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1545 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
10天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
12天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
16天前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
732 14
|
11天前
|
人工智能 开发框架 Java
重磅发布!AI 驱动的 Java 开发框架:Spring AI Alibaba
随着生成式 AI 的快速发展,基于 AI 开发框架构建 AI 应用的诉求迅速增长,涌现出了包括 LangChain、LlamaIndex 等开发框架,但大部分框架只提供了 Python 语言的实现。但这些开发框架对于国内习惯了 Spring 开发范式的 Java 开发者而言,并非十分友好和丝滑。因此,我们基于 Spring AI 发布并快速演进 Spring AI Alibaba,通过提供一种方便的 API 抽象,帮助 Java 开发者简化 AI 应用的开发。同时,提供了完整的开源配套,包括可观测、网关、消息队列、配置中心等。
554 6
|
5天前
|
Docker 容器
Docker操作 (五)
Docker操作 (五)
148 68
|
5天前
|
Docker 容器
Docker操作 (三)
Docker操作 (三)
138 69
|
16天前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
577 49
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界