检索增强预训练框架MaskSearch:让AI更聪明地“找答案”

简介: 通义实验室发布的MaskSearch预训练框架,让AI具备“主动搜索+多步推理”能力,更精准回答复杂问题。其核心是检索增强掩码预测(RAMP)任务,通过监督微调与强化学习结合,使小模型性能媲美大模型。实验表明,在多个问答数据集中,经过RAMP预训练的模型表现优异,尤其在多跳推理任务中优势显著。此外,课程学习策略帮助模型从简单到复杂逐步提升推理能力。相关论文与代码已开源。

你有没有遇到过这样的情况:问 AI 一个问题,它回答得头头是道,但其实是在“编答案”?这并不是 AI 故意“说谎”,而是因为它没有能力实时查找最新的外部信息 。大多数语言模型的知识都来自于它们在训练时看到的数据,一旦上线之后,就只能靠这些“老本”来回答问题了。有没有办法让 AI 在面对自己不知道的问题时,也能像人类一样去“查资料”呢?通义实验室发布并开源了 MaskSearch 预训练框架,让 AI 学会“主动搜索 + 多步推理”,从而更准确、更智能地回答复杂问题。


640 (90).png

640 (91).png


预训练新范式:增强通用搜索能力

MaskSearch 提出了一种全新的预训练任务——检索增强掩码预测(RAMP) ,让 AI 在大量“填空题”中学习如何调用搜索引擎、多步推理、逐步还原缺失信息,从而掌握通用的搜索与推理能力。

多智能体协同:生成高质量推理轨迹

通过构建由规划器、重写器、观察器 组成的多智能体系统,MaskSearch 能够自动生成结构清晰、逻辑完整的推理路径(Chain-of-Thought),并借助自进化蒸馏方法快速扩展数据集,为训练提供高质量样本。

强化学习加持:动态混合奖励机制

采用 DAPO 算法 ,结合格式奖励(保证输出结构正确)与回答奖励(确保内容准确),打造高效强化学习流程,进一步提升模型在复杂任务中的表现。

小模型也能有大作为

实验表明,即使是小模型(如 Qwen2.5-1.5B),在经过 MaskSearch 预训练后,也能在多个开放域问答任务中取得显著提升。例如,在 Bamboogle 数据集中性能提升超过 11.78% ,真正做到了“小模型也能挑战大模型”。


640 (92).png


检索增强掩码预测(RAMP)任务

为了更直观地理解 MaskSearch 的工作原理,我们可以来看一下它的整体架构和训练流程(如下图所示):


640 (93).png


MaskSearch 的核心在于它提出的一种全新预训练任务——检索增强掩码预测(RAMP)在这个任务中,模型需要填补句子中的掩码部分,并且必须通过主动搜索和多步推理来完成任务。


640 (94).png


例如,给定一个句子:

Andrew Barto received his [mask] with distinction in [mask] from the University of Michigan in 1970.

AI 需要通过搜索引擎查找相关信息,逐步推理出被遮盖的部分。模型首先分析上下文,判断需要查找的信息是“学位类型”和“专业方向”。随后,它调用搜索引擎进行查询,得到关于 Andrew Barto 的相关信息,并从中提取出关键片段:“Andrew Barto, B.S., math, University of Michigan, 1970”。

接着,AI 进行推理整合,最终填补掩码输出完整句子:

Andrew Barto received his B.S. with distinction in math from the University of Michigan in 1970。

监督微调(SFT)与强化学习(RL)

为了训练 AI 掌握“找答案”的能力,我们采用了两种训练策略:

(1)监督微调(SFT)

为了生成用于监督微调(Supervised Finetuning, SFT)的思维链(CoT)数据,作者提出 Agent 合成与蒸馏结合的数据生成方法。

  • Agent 合成:首先,搭建多智能体系统,纳入规划、搜索改写、观察分析等角色,协同进行思维链的生成任务。最终由一个 LLM 负责答案判断,仅保留正确答案的思维链。
  • 蒸馏:为了快速扩展数据集并保持高质量,使用已有数据训练后的教师模型,直接生成推理轨迹,并逐步迭代教师模型,从而逐步提升数据质量。

(2)强化学习(RL)

在强化学习训练中,采用动态采样策略优化DAPO 算法,结合格式奖励与内容奖励,形成一套高效的训练机制。其中,格式奖励检查模型输出是否符合指定格式,回答奖励则使用 Qwen2.5-72B-Instruct 模型评估生成答案与标准答案的一致性。


课程学习策略:从简单到复杂

MaskSearch 还采用了类似“课程学习”的训练方式:根据句子中被掩码的数量划分任务难度,让模型先掌握基础技能,再应对更具挑战性的任务。这种训练方式帮助模型逐步建立扎实的推理能力,并在面对复杂问题时也能从容应对。


640 (95).png


为了验证 MaskSearch 的实际效果,研究团队在多个主流问答数据集上进行了系统性实验,涵盖了不同规模的语言模型,并对比了多种训练策略下的表现。

HotpotQA、FanoutQA、Musique 等多跳问答任务中,经过 RAMP 预训练的小模型(如 Qwen2.5-1.5B 或 LLaMA-3.2-1B)表现优异,甚至可以媲美更大参数量的模型。这说明,MaskSearch 有效提升了小模型的推理能力,使其具备更强的泛化性和适应性。


640 (96).png


强化学习(RL)在复杂任务中展现出更高的性能上限,尤其在结合 DAPO 算法和混合奖励机制后,模型在召回率、生成质量等方面均优于仅使用监督微调(SFT)的方法。这表明,通过动态采样和奖励引导,AI 能够更精准地优化搜索与推理流程,从而实现更高质量的回答输出。

在验证 MaskSearch 的扩展能力(Scaling Performance)时,我们发现即使是轻量级模型,在经历多轮训练后也能持续提升性能;而大模型虽然增益较小,但依然受益于 RAMP 预训练,显示出该框架良好的通用性和可扩展性。


640 (97).png


我们还设计了一种基于掩码数量的课程学习策略 ,让模型从简单任务逐步过渡到复杂任务。这种由浅入深的训练方式,显著提升了模型在下游任务中的表现,也验证了难度梯度设计对推理能力构建的重要性。


640 (98).png


MaskSearch 在多个模型和任务中都展现出良好的适应性和稳定的性能提升,如果你想深入了解 MaskSearch 的训练机制与技术细节,欢迎查看完整论文

📚论文地址

💻代码库

相关文章
|
3月前
|
存储 机器学习/深度学习 人工智能
​​解锁AI检索的7大Embedding技术:从稀疏到多向量,一文掌握!​
本文系统解析七种主流文本嵌入技术,包括 Sparse、Dense、Quantized、Binary、Matryoshka 和 Multi-Vector 方法,结合适用场景提供实用选型建议,助你高效构建文本检索系统。
414 0
|
4月前
|
设计模式 人工智能 API
​​混合检索技术:如何提升AI智能体50%的响应效率?​
本文深入解析检索增强智能体技术,探讨其三大集成模式(工具模式、预检索模式与混合模式),结合实战代码讲解RAG组件链构建、上下文压缩、混合检索等关键技术,并提供多步检索工作流与知识库自更新机制设计,助力高效智能体系统开发。
476 1
|
3月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
300 107
|
4月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
493 6
|
3月前
|
存储 人工智能 运维
AI 网关代理 RAG 检索:Dify 轻松对接外部知识库的新实践
Higress AI 网关通过提供关键桥梁作用,支持 Dify 应用便捷对接业界成熟的 RAG 引擎。通过 AI 网关将 Dify 的高效编排能力与专业 RAG 引擎的检索效能结合,企业可在保留现有 Dify 应用资产的同时,有效规避其内置 RAG 的局限,显著提升知识驱动型 AI 应用的生产环境表现。
2209 99
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1696 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
3月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1323 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
3月前
|
人工智能 数据可视化 数据处理
AI智能体框架怎么选?7个主流工具详细对比解析
大语言模型需借助AI智能体实现“理解”到“行动”的跨越。本文解析主流智能体框架,从RelevanceAI、smolagents到LangGraph,涵盖技术门槛、任务复杂度、社区生态等选型关键因素,助你根据项目需求选择最合适的开发工具,构建高效、可扩展的智能系统。
939 3
AI智能体框架怎么选?7个主流工具详细对比解析
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
341 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5

热门文章

最新文章