深度学习-生成式检索-论文速读-2024-09-14
前言:
生成式检索(Generative Retrieval, GR)是一种结合了生成模型和检索系统的人工智能技术方法。这种方法在处理信息检索任务时,不仅依赖于已有数据的检索,还能生成新的、相关的信息或数据来满足查询需求。相对传统基于倒排链的稀疏检索(Sparse Retrieval, SR) 和采用向量化的稠密检索(Dense Retrieval, DR), 生成式检索GR能够突破现有搜推系统多级链路的固有瓶颈限制,END TO END的方式直接生成最终的检索结果,因而在近年来成为研究热点。
1. Transformer Memory as Differentiable Search Index, NIPS, 2022
Advances in Neural Information Processing Systems 35 (2022): 21831-21843.
作为可微搜索索引的Transformer记忆
摘要
本文提出了一种新的信息检索范式——可微搜索索引(Differentiable Search Index, DSI),它使用单一的Transformer模型将查询文本直接映射到相关的文档标识符(docids)。DSI模型在训练时学习将文档内容与相应的docid关联起来,在检索时根据输入的查询返回相关docid。实验表明,DSI在适当的设计选择下,显著优于双编码器模型等强基线,并且在零样本设置下展现出强大的泛化能力。
创新点
- 可微搜索索引(DSI):提出了一种新的检索范式,将检索过程完全集成在单个Transformer模型中,简化了整个检索流程。
- 端到端检索:DSI模型可以直接从文本查询映射到docid,无需额外的索引构建步骤。
- 零样本学习能力:DSI在没有看到特定查询的情况下也能表现出色,这表明模型具有很好的泛化能力。
算法模型
- DSI模型:使用预训练的Transformer模型,通过序列到序列(seq2seq)学习系统直接将查询映射到相关的docid。
- 索引策略:模型在训练阶段学习将文档内容与docid关联,实现索引功能。
- 检索策略:在给定查询的情况下,模型使用自回归生成的方式返回候选docid的排名列表。
实验效果
- 数据集:使用Natural Questions (NQ) 数据集进行实验,该数据集包含307K个查询-文档训练对和8K个验证对。
- 性能指标:主要使用Hits@N(N=1, 10)作为评价指标。
- 结论:
- DSI在小规模数据集上(NQ10K)的Hits@1性能提升了20多个百分点,从12.4%提升到33.9%。
- 在更大规模的数据集上(NQ320K),DSI的性能提升更加显著,尤其是在使用大型模型时。
- 在零样本设置下,DSI的Hits@1性能比BM25基线提高了14个百分点。
推荐阅读指数:
★★★★☆
推荐理由
这篇文章提出了一种创新的信息检索方法,通过将检索过程集成在单个Transformer模型中,简化了传统的检索流程。DSI模型不仅在标准的训练设置下表现优异,还在零样本设置下展现出了强大的泛化能力,这对于实际应用中快速适应新查询具有重要意义。此外,文章对DSI的不同变体进行了详细的分析和比较,为未来在这一领域的研究提供了宝贵的参考。对于从事信息检索、自然语言处理和机器学习的研究者和工程师来说,这篇文章提供了新的视角和方法论,值得一读。
2. A Neural Corpus Indexer for Document Retrieval, NIPS, 2022
用于文档检索的神经语料库索引器
摘要
当前最先进的文档检索解决方案主要遵循索引检索范式,其中索引难以直接针对最终检索目标进行优化。本文旨在展示一个端到端的深度神经网络,统一训练和索引阶段可以显著提高传统方法的召回性能。为此,提出了神经语料库索引器(Neural Corpus Indexer, NCI),这是一个序列到序列的网络,直接为指定查询生成相关文档标识符。为了优化NCI的召回性能,发明了一种前缀感知的权重自适应解码器架构,并利用了包括查询生成、语义文档标识符和基于一致性的正则化技术。实证研究表明,NCI在两个常用的学术基准测试中优于现有方法,分别在NQ320k数据集的Recall@1和TriviaQA数据集的R-Precision上实现了+21.4%和+16.8%的相对提升。
创新点
- 端到端深度神经网络:提出了一个统一的深度神经网络模型,用于训练和索引阶段,以提高文档检索的召回率。
- 前缀感知的权重自适应解码器:设计了一种新的解码器架构,以适应文档标识符的层次结构。
- 语义文档标识符:利用层次k均值算法为每个文档生成语义标识符,使相似文档在层次树中具有“接近”的标识符。
- 基于一致性的正则化:采用基于一致性的正则化损失来缓解过拟合问题,提高模型的泛化能力。
算法模型
- 神经语料库索引器(NCI):一个序列到序列的神经网络模型,通过编码器接收用户查询并生成查询嵌入,通过解码器输出相关文档的标识符。
- 前缀感知的权重自适应解码器(PAWA):一种新颖的解码器架构,能够根据不同的前缀为解码过程中的分类器分配不同的权重。
- 层次k均值算法:用于生成文档的语义标识符,将文档组织成树结构,使得语义相似的文档具有相似的前缀。
实验效果
- 数据集:在Natural Questions (NQ) 和 TriviaQA 数据集上进行实验。
- 性能指标:使用Recall@N、Mean Reciprocal Rank (MRR) 和 R-precision 作为评价指标。
- 结论:
- NCI在NQ320k数据集上的Recall@1提升了21.4%,在TriviaQA数据集上的R-Precision提升了16.8%。
- NCI在没有显式排名模型的情况下,自身也达到了有竞争力的MRR分数。
推荐阅读指数:
★★★★☆
推荐理由
这篇文章提出了一种创新的文档检索方法,通过端到端的深度神经网络模型,实现了训练和索引阶段的统一,显著提高了检索的召回率。提出的前缀感知的权重自适应解码器和语义文档标识符为文档检索领域带来了新的视角和技术。对于从事信息检索、自然语言处理和深度学习研究的学者和工程师来说,这篇文章提供了新的研究思路和方法,值得一读。
3. Understanding Differential Search Index for Text Retrieval, ACL, 2023
Xiaoyang Chen, Yanjiang Liu, Ben He, Le Sun, Yingfei Sun
理解文本检索中的差异化搜索索引
摘要
本文探讨了差异化搜索索引(Differentiable Search Index, DSI)这一新兴的信息检索框架。DSI利用可微函数直接将查询映射到相关文档标识符的排序列表。然而,由于其端到端神经架构的黑箱特性,DSI在基本索引和检索能力方面仍不明确。为了填补这一空白,本研究定义并检验了一个有效的信息检索框架应具备的三个重要能力:排他性、完整性和相关性排序。通过分析实验,我们发现尽管DSI在记忆从伪查询到文档标识符的单向映射方面表现出熟练度,但在区分相关文档和随机文档方面存在不足,从而影响了其检索效果。为了解决这一问题,我们提出了一种多任务蒸馏方法来提升检索质量,而不改变模型结构,并成功赋予了其改进的索引能力。通过在不同数据集上的实验,我们证明了我们提出的方法优于先前的DSI基线。
创新点
- 多任务蒸馏方法:提出了一种新的训练方法,通过从密集检索中学习来提升DSI的效果,同时保持了DSI的优势,如最小的存储成本和端到端的可检索性。
- 改进的文档表示:通过捕捉不同粒度的信息并使用密集检索模型编码的文档表示来过滤关键信息,增强了DSI的排他性和完整性。
- 显式建模文档相关性:通过显式建模文档之间的联系,模型能够减少输出结果的随机性并提高检索性能。
算法模型
- DSI-QG:一种基于T5模型的差异化搜索索引,用于直接从查询文本生成相关文档标识符。
- 多任务蒸馏方法:结合了索引任务和检索任务,通过使用密集检索模型的输出作为训练信号,提升了DSI模型的检索能力。
实验效果
- 数据集:在MS MARCO和Natural Questions (NQ)数据集上进行实验。
- 性能指标:使用Hits@1、Hits@10、NDCG@10和P@10作为评价指标。
- 结论:
- 提出的方法在MS MARCO和NQ数据集上均优于现有的DSI模型。
- 在具有更完整人类注释的数据集上,提出的方法与密集检索模型TCT-ColBERT的性能相当。
推荐阅读指数:
★★★★☆
推荐理由
这篇文章对差异化搜索索引(DSI)进行了深入的分析,并提出了一种新的多任务蒸馏方法来提升DSI的检索效果。文章不仅在理论上提出了创新的训练方法,而且在实验中也验证了方法的有效性。对于从事信息检索、自然语言处理和深度学习研究的学者和工程师来说,这篇文章提供了新的研究思路和方法,值得一读。
4. GLEN: Generative Retrieval via Lexical Index Learning, EMNLP, 2023
Sunkyung Lee, Minjin Choi, Jongwuk Lee
GLEN:通过词汇索引学习生成式检索
摘要
本文提出了一种名为GLEN(Generative retrieval via LExical iNdex learning)的新型生成式检索方法,旨在通过直接生成与查询相关的文档标识符来实现文档检索。GLEN通过两阶段索引学习策略有效地利用动态词汇标识符,使其能够学习有意义的词汇标识符和查询与文档之间的相关性信号。在推理阶段,GLEN使用无冲突推理,利用标识符权重对文档进行排名,而无需额外开销。实验结果证明,GLEN在多个基准数据集上实现了对现有生成式检索方法的超越或具有竞争力的表现。
创新点
- 动态词汇标识符:提出了一种新的动态词汇标识符学习方法,通过两阶段索引学习策略来定义和学习词汇标识符。
- 两阶段索引学习策略:包括基于关键词的ID分配和基于排名的ID细化,以生成反映查询-文档相关性的标识符。
- 无冲突推理:在推理阶段,GLEN使用标识符权重来解决文档标识符冲突问题,无需额外开销。
算法模型
- GLEN模型:一个基于Transformer的序列到序列网络,用于直接为指定查询生成相关文档标识符。
- 两阶段索引学习:
- 关键词ID分配:从文档中提取关键词作为标识符,并通过自监督信号学习。
- 排名ID细化:通过成对排名损失和点式检索损失来学习动态标识符。
- 无冲突推理:在推理时,使用标识符权重对文档进行排名,解决标识符冲突问题。
实验效果
- 数据集:在Natural Questions (NQ320k)、MS MARCO和BEIR数据集上进行实验。
- 性能指标:使用Recall@1、Recall@10、MRR@100、MRR@10和nDCG@10等指标。
- 结论:
- GLEN在NQ320k数据集上实现了69.1%的Recall@1和86.0%的Recall@10,超过了现有生成式检索方法。
- 在MS MARCO数据集上,GLEN的MRR@10为20.1%,优于现有方法。
- 在BEIR数据集上,GLEN的平均nDCG@10为16.8%,显示出良好的零样本学习能力。
推荐阅读指数:
★★★★☆
推荐理由
这篇文章提出了一种创新的生成式检索方法GLEN,通过动态词汇标识符和两阶段索引学习策略,有效地提高了文档检索的准确性和效率。GLEN在多个基准数据集上展现了出色的性能,特别是在处理大规模数据集时的表现,使其成为一个有潜力的研究方向。对于从事信息检索、自然语言处理和深度学习研究的学者和工程师来说,这篇文章提供了新的研究思路和方法,值得一读。
5. Generative Retrieval as Dense Retrival, 2023
Thong Nguyen, Andrew Yates
生成式检索作为密集检索
摘要
本文探讨了生成式检索(Generative Retrieval),这是一种新兴的神经检索范式,旨在通过单一的变换器(transformer)模型同时优化索引和检索流程。尽管这一新范式展现出潜力,但在更新索引和扩展到大型数据集方面面临挑战。文章分析了两种突出的生成式检索变体,并展示了它们可以被概念化为密集检索(Dense Retrieval)的双编码器(bi-encoders)。具体来说,文章分析证明了生成式检索过程可以分解为查询向量和文档向量之间的点积,类似于密集检索。这种分析引导我们提出了一种新的生成式检索变体,称为Tied-Atomic,通过结合密集检索的技术来解决更新和扩展问题。在两个数据集NQ320k和完整MSMARCO上的实验证实了这种方法在不降低检索效果的同时,能够使模型扩展到大型数据集。
深度学习-生成式检索-论文速读-2024-09-14(下)+https://developer.aliyun.com/article/1628835