单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 单个Transformer完成信息检索,谷歌用可微搜索索引打败双编码器模型
谷歌提出基于 Transformer 的可微文本检索索引,明显优于双编码器模型等强大基线,并且还具有强大的泛化能力,在零样本设置中优于 BM25 基线。


信息检索 (Information Retrieval, IR) 从互联网诞生之日起,便有着不可撼动的地位。如何从海量数据中找到用户需要的信息是当前研究的热点。目前比较流行的 IR 方法是先检索后排序(retrieve-then-rank)策略。在检索算法中,比较常用的是基于反向索引或最近邻搜索,其中基于对比学习的双编码器 (dual encoders,DE) 是目前性能最优的模型。

近日,谷歌研究院在论文《Transformer Memory as a Differentiable Search Index》中提出了一种替代架构,研究者采用序列到序列 (seq2seq) 学习系统。该研究证明使用单个 Transformer 即可完成信息检索,其中有关语料库的所有信息都编码在模型的参数中。

该研究引入了可微搜索索引(Differentiable Search Index,DSI),这是一种学习文本到文本新范式。DSI 模型将字符串查询直接映射到相关文档;换句话说,DSI 模型只使用自身参数直接回答查询,极大地简化了整个检索过程。

此外,本文还研究了如何表示文档及其标识符的变化、训练过程的变化以及模型和语料库大小之间的相互作用。实验表明,在适当的设计选择下,DSI 明显优于双编码器模型等强大基线,并且 DSI 还具有强大的泛化能力,在零样本设置中优于 BM25 基线


论文链接:https://arxiv.org/pdf/2202.06991.pdf

DSI 体系架构与 DE 比较:


论文一作、谷歌高级研究员 Yi Tay 表示:在这个新范式中,检索的所有内容都映射到易于理解的 ML 任务上。索引是模型训练的一种特殊情况,不再依赖外部不可微的 MIPS 操作进行检索。这使得统一模型更容易。


可微搜索索引

DSI 背后的核心思想是在单个神经模型中完全参数化传统的多阶段先检索后排序 pipeline。为此,DSI 模型必须支持两种基本操作模式:

  • 索引:DSI 模型应该学会将每个文档内容 d_j 与其对应的 docid j ( 文档标识符 :document identifiers,docid)相关联。本文采用一种简单的序列到序列方法,将文档 token 作为输入并生成标识符作为输出;
  • 检索:给定输入查询,DSI 模型应返回候选 docid 排序列表。本文是通过自回归生成实现的。


在这两个操作之后,DSI 模型可以用来索引文档语料库,并对可用的带标记数据集(查询和标记文档)进行微调,然后用于检索相关文档 —— 所有这些都在单个、统一的模型中完成。与先检索后排序方法相反,DSI 模型允许简单的端到端训练,并且可以很容易地用作更大、更复杂的神经模型的可微组件

双编码器 (DE) 的概述,它有两个独立的步骤,编码和检索。

索引策略

Inputs2Target:研究者将其构建为 doc_tokens → docid 的 seq2seq 任务,此方式能够以直接输入到目标的方式将 docid 绑定到文档 token。

Targets2Inputs:从标识符生成文档 token,即 docid → doc token。直观来讲,这相当于训练一个以 docid 为条件的自回归语言模型。

双向:其在同一个联合训练设置中训练 Inputs2Targets 和 targets2input。附加一个 prefix token 以允许模型知道任务正在哪个方向执行。

表示 Docids 用于检索

基于 seq2seq 的 DSI 模型中的检索是通过解码给定输入查询 docid 来完成的。如何有效地解码很大程度上取决于模型中 docid 的表示方式。在本节中,研究者探讨了表示 docid 的多种可能方式以及如何处理解码。

非结构化原子标识符(Atomic Identifiers):表示文档最简单的方法是为每个文档分配一个任意的(并且可能是随机的)唯一整数标识符,该研究将这些标识符称为非结构化原子标识符。研究者要想使用这些标识符,一个明显的解码方式是学习标识符上的概率分布。在这种情况下,模型被训练为每个唯一的 docid (|Ndocuments|) 发出一个 logit。为了适应这种情况,该研究将标准语言模型的输出词汇表扩展如下:


简单的结构化字符串标识符:该研究还考虑了另一种方法,将非结构化标识符 (即任意唯一整数) 视为可标记的(tokenizable)字符串,将其称为简单的结构化标识符。在此标识符下,检索是通过依次解码一个 docid 字符串来完成的。解码时,使用 beam search 来获得最佳 docid。但是,使用这种策略不容易获得 top-k 排名。不过,研究者可以彻底梳理整个 docid 空间,并获得给定查询的每个 docid 的可能性。

语义结构化标识符:其目标是自动创建满足以下属性的标识符:(1) docid 应该捕获一些语义信息,(2) docid 的结构应该是在每一个解码 step 之后有效地减少搜索空间。给定一个需要索引的语料库,所有文档都聚集成 10 个簇。每个文档分配有一个标识符,其簇的编号从 0 到 9。下表为这个进程的伪代码:


实验结果

所有 DSI 模型均使用标准预训练 T5 模型配置进行初始化。配置名称和对应的模型参数数量为:Base (0.2B)、Large (0.8B)、XL (3B) 和 XXL (11B)。该研究用实验验证了上述各种策略的效果。

下表 3 给出了经过微调的 NQ10K、NQ100K 和 NQ320K 的检索结果,表 4 给出了零样本检索结果。对于零样本检索,模型仅针对索引任务而不是检索任务进行训练,因此模型看不到标记查询 → docid 数据点。



下图 4 给出了 NQ320K 上的结果。总的来说,研究者发现直接索引方法效果最好,并且由于 docid 反复暴露于不同的 token,因此很难训练倒排索引( inverted index)方法。他们还发现,较短的文档长度似乎在性能大幅下降超过 64 个 token 时效果很好,这表明当存在大量文档 token 时,可能更难优化或有效记忆。最后,研究者还发现对文档 token 应用集合处理或停用词预处理没有额外的优势。


下图 3 绘制了三种方法的缩放表现(以对数尺度计),它们分别是 DE、具有 naive ID 的 DSI 和具有语义 ID 的 DSI。其中,DSI (naive) 可以从 base 到 XXL 的尺度变化中获益,并且似乎仍有改进的空间。同时,DSI (语义) 在开始时与 DE base 具有同等竞争力,但会随尺度增加表现得更好。DE 模型在较小的参数化时基本处于稳定状态。


下图 5 展示了修改索引比例对检索样本的影响。研究者发现,索引和检索任务之间的相互作用会显著影响优化过程。r 值设置得过高或过低一般都会导致性能不佳。他们发现,索引比例为 32 时通常表现良好。


相关文章
|
6月前
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
75 0
|
4月前
|
机器学习/深度学习 人工智能 算法
没想到!AlphaZero式树搜索也能用来增强大语言模型推理与训练
【7月更文挑战第26天】Xidong Feng等研究人员提出了一项创新方法,通过采用AlphaZero式的树搜索算法来增强大语言模型(LLMs)的推理与训练能力。这项技术,称为TS-LLM(Tree-Search for LLMs),将LLMs的解码过程视为搜索问题,并运用AlphaZero的树搜索来指导这一过程。TS-LLM不仅提升了模型的通用性和适应性,还在多个任务中实现了显著的性能提升。此外,它能在训练阶段指导LLMs学习更优的解码策略。尽管如此,TS-LLM依赖于高质量的预训练LLM,并面临较高的计算成本挑战。[论文](https://arxiv.org/abs/2309.17179)
73 5
|
5月前
|
人工智能 自然语言处理 算法
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。 - **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。 - 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。 - 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。
187 8
|
5月前
|
机器学习/深度学习 自然语言处理 算法
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
【6月更文挑战第20天】研究人员运用神经架构搜索(NAS)压缩LLM,如LLaMA2-7B,找到小而精准的子网,降低内存与计算成本,保持甚至提升性能。实验显示在多个任务上,模型大小减半,速度加快,精度不变或提升。NAS虽需大量计算资源,但结合量化技术,能有效优化大型语言模型。[论文链接](https://arxiv.org/pdf/2405.18377)**
55 3
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
106 0
|
机器学习/深度学习 编解码 自然语言处理
【论文速递】WACV 2023 - 一种全卷积Transformer的医学影响分割模型
我们提出了一种新的transformer,能够分割不同形态的医学图像。医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处于初级阶段。
232 0
|
机器学习/深度学习 人工智能 数据库
许锦波团队开发蛋白逆折叠深度学习框架,用更少结构数据训练获得更准确序列预测
许锦波团队开发蛋白逆折叠深度学习框架,用更少结构数据训练获得更准确序列预测
165 0
|
机器学习/深度学习 关系型数据库 MySQL
2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度!
2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度!
671 0
|
人工智能 数据可视化 数据挖掘
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
273 0
|
机器学习/深度学习 算法
【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》
【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》
【论文写作分析】之五《融合类别特征扩展与N-gram子词过滤的fastText短文本分类》
下一篇
无影云桌面