PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 在大数据时代,有效的信息检索技术对于从海量数据中提取相关信息至关重要。国立台湾大学的研究者提出了一种名为PAIRDISTILL的新方法,通过成对相关性蒸馏,利用成对重排序器提供的细粒度训练信号,显著提升了密集检索模型的性能。该方法不仅在MS MARCO等基准测试中表现出色,还在领域外和零样本场景中展现出强大的泛化能力,为密集检索领域提供了新的研究方向。

在当今海量数据时代,有效的信息检索(IR)技术对于从庞大数据集中提取相关信息至关重要。近年来,密集检索技术展现出了相比传统稀疏检索方法更加显著的效果。

现有的方法主要从点式重排序器中蒸馏知识,这些重排序器为文档分配绝对相关性分数,因此在进行比较时面临不一致性的挑战。为解决这一问题,来自国立台湾大学的研究者Chao-Wei Huang和Yun-Nung Chen提出了一种新颖的方法——成对相关性蒸馏(Pairwise Relevance Distillation, PAIRDISTILL)。

PAIRDISTILL的主要研究目的是:

  1. 利用成对重排序的优势,为密集检索模型的训练提供更细粒度的区分。
  2. 提高密集检索模型在各种基准测试中的性能,包括领域内和领域外的评估。
  3. 探索一种可以跨不同架构和领域进行一致性改进的方法。

方法改进详细描述

PAIRDISTILL方法的核心思想是利用成对重排序器提供的细粒度训练信号来增强密集检索模型的训练。该方法的主要组成部分包括:

成对重排序:与传统的点式重排序不同,成对重排序同时比较两个文档,估计一个文档相对于另一个文档与查询的相关性。形式上,给定查询q和两个文档di和dj,成对重排序器估计的概率为:

这种方法通过仅建模di和dj的相对相关性来缓解校准问题。

成对相关性蒸馏:PAIRDISTILL的目标是让密集检索器模仿成对重排序器的输出分布。密集检索器预测的成对相关性分布定义为:

训练目标是最小化密集检索器和成对重排序器的成对相关性分布之间的KL散度:

迭代训练策略:为了提高检索器的性能并避免过拟合固定的文档集,PAIRDISTILL采用了迭代训练策略。每次迭代中,使用前一次迭代训练的检索器构建索引并检索前k个文档,然后进行重排序和微调。

综合损失函数:PAIRDISTILL的完整损失函数包括对比学习损失、点式知识蒸馏损失和成对相关性蒸馏损失:

其中λKD和λpair是表示蒸馏损失权重的超参数。

下图2展示了PAIRDISTILL方法的整体框架:

(图2:PAIRDISTILL方法框架示意图)

这种方法不仅可以应用于有监督的数据集,还可以用于零样本域适应任务。在没有标记训练数据的情况下,可以使用以下简化的损失函数:

通过这种创新的方法,PAIRDISTILL能够从成对比较中蒸馏知识,使模型学习到更细致的文档相关性区分,从而提高密集检索模型的整体性能。

实验设置

研究者进行了广泛的实验来验证PAIRDISTILL方法的有效性。主要的实验设置如下:

  1. 数据集:- MS MARCO:用作监督数据集,包含502K训练查询和8.8百万段落。- TREC DL19和DL20:用于额外的领域内评估。- BEIR:包含18个检索数据集,用于评估领域外检索性能。- LoTTE:包含来自StackExchange的问题和答案,涵盖多个主题。
  2. 评估指标:- MS MARCO:使用MRR@10和Recall@1000- TREC和BEIR:使用NDCG@10- LoTTE:使用Success@5
  3. 模型实现:- 初始检索器:采用预训练的ColBERTv2- 点式重排序器:使用MiniLM- 成对重排序器:采用duoT5-3B
  4. 训练细节:- 每个查询检索top-100段落- 对每个查询采样50对段落进行成对重排序- 使用4个V100 GPU进行训练

主要实验结果

PAIRDISTILL在多个基准测试中都取得了显著的性能提升。主要结果如下:

  1. 领域内评估:在MS MARCO开发集上,PAIRDISTILL达到了40.7的MRR@10,优于所有基线模型,包括其初始化模型ColBERTv2(39.7)。在TREC DL19上也达到了最佳性能,在TREC DL20上达到了第二佳性能。
  2. 领域外评估:- BEIR数据集:PAIRDISTILL在18个任务中的6个达到了最佳性能,在16个数据集上持续优于ColBERTv2。- LoTTE数据集:在搜索和论坛子集中都达到了最先进的性能。
  3. 开放域问答:在NaturalQuestions、TriviaQA和SQuAD数据集上,PAIRDISTILL在Recall@5指标上持续优于所有基线模型。

性能改进分析

为了深入理解PAIRDISTILL的性能改进,研究者进行了一系列消融实验和分析:

  1. 消融研究:- 移除成对蒸馏损失(Lpair)会导致性能下降到39.7。- 移除点式蒸馏损失(LKD)会进一步降低性能至39.4。- 这表明两种蒸馏损失都对模型性能有重要贡献。
  2. 不同初始化:使用bert-base-uncased初始化时,PAIRDISTILL仍能达到40.3的性能,证明该方法对初始化不敏感。
  3. 跨架构有效性:在DPR架构上的实验显示,PAIRDISTILL也能持续提升性能,从34.8提升到36.8,证明该方法可以跨不同的密集检索架构有效应用。
  4. 迭代训练效果:实验表明,第二次迭代可以进一步提升性能,之后趋于收敛。
  5. 零样本域适应:在FiQA、BioASQ和Climate-FEVER数据集上的实验显示,PAIRDISTILL在零样本域适应任务中也能有效提升性能。

结论与影响

PAIRDISTILL方法通过利用成对重排序器提供的细粒度训练信号,显著提升了密集检索模型的性能。该方法在多个基准测试中都达到了最先进的水平,不仅在领域内评估中表现出色,在领域外和零样本场景中也展现了强大的泛化能力。

这项研究为密集检索领域提供了新的研究方向,展示了利用更细粒度的相关性信息来改进检索模型的潜力。PAIRDISTILL方法的成功也为其他自然语言处理任务中的知识蒸馏技术提供了启发。

尽管如此,研究者也指出了该方法的一些局限性,主要是在训练过程中可能需要更多的训练对,这可能会增加计算资源的需求。未来的研究方向可能包括如何在保持性能的同时减少所需的训练对数量,以及进一步探索该方法在其他相关任务中的应用。

https://avoid.overfit.cn/post/4e825b6cc5b44ce7962f59c873afb7e4

目录
相关文章
|
6月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
2月前
|
机器学习/深度学习 编解码 测试技术
TimeMOE: 使用稀疏模型实现更大更好的时间序列预测
TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。
426 64
|
机器学习/深度学习 算法 Python
K最近邻算法:简单高效的分类和回归方法(三)
K最近邻算法:简单高效的分类和回归方法(三)
|
1月前
|
机器学习/深度学习 算法 数据挖掘
稀疏促进动态模态分解(SPDMD)详细介绍以及应用
稀疏促进动态模态分解(SPDMD)结合了动态模态分解(DMD)的数学优雅性和稀疏优化技术,有效提取高维数据中的关键特征。SPDMD通过稀疏约束自动筛选出最重要模态,去除冗余信息,提升模型的可解释性和计算效率。该方法在流体动力学、图像处理、时间序列分析及金融数据等领域广泛应用,能够识别主要趋势、周期性模式及异常现象。SPDMD不仅提高了数据分析效率,还为各领域研究提供了强有力的工具。通过自动选择最相关的模态,SPDMD尤其适用于大规模数据集和实时应用。
60 4
|
2月前
|
自然语言处理 数据挖掘
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
90 4
|
2月前
|
机器学习/深度学习 数据挖掘
数据特征
数据特征
71 1
|
4月前
|
机器学习/深度学习 索引 Python
。这不仅可以减少过拟合的风险,还可以提高模型的准确性、降低计算成本,并帮助理解数据背后的真正含义。`sklearn.feature_selection`模块提供了多种特征选择方法,其中`SelectKBest`是一个元变换器,可以与任何评分函数一起使用来选择数据集中K个最好的特征。
。这不仅可以减少过拟合的风险,还可以提高模型的准确性、降低计算成本,并帮助理解数据背后的真正含义。`sklearn.feature_selection`模块提供了多种特征选择方法,其中`SelectKBest`是一个元变换器,可以与任何评分函数一起使用来选择数据集中K个最好的特征。
|
6月前
线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。
【5月更文挑战第2天】线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。但过多离散特征可能增加复杂度,丢失信息,影响模型泛化和精度。需谨慎平衡离散化利弊。
45 0
|
数据采集 存储 运维
K最近邻算法:简单高效的分类和回归方法
K最近邻算法:简单高效的分类和回归方法
|
机器学习/深度学习 算法 数据可视化
机器学习-特征选择:如何使用相关性分析精确选择最佳特征?
本文致力于利用相关性分析来辅助特征选择过程。相关性分析作为一种用于量化特征之间关系的方法,可以帮助我们理解数据中的潜在模式和相互作用。通过分析特征之间的相关性,我们可以更加准确地选择具有高预测能力和独立性的特征,从而提高特征选择的效果和结果。
2319 0