检索增强预训练框架MaskSearch:让AI更聪明地“找答案”

简介: 通义实验室发布的MaskSearch预训练框架,让AI具备“主动搜索+多步推理”能力,更精准回答复杂问题。其核心是检索增强掩码预测(RAMP)任务,通过监督微调与强化学习结合,使小模型性能媲美大模型。实验表明,在多个问答数据集中,经过RAMP预训练的模型表现优异,尤其在多跳推理任务中优势显著。此外,课程学习策略帮助模型从简单到复杂逐步提升推理能力。相关论文与代码已开源。

你有没有遇到过这样的情况:问 AI 一个问题,它回答得头头是道,但其实是在“编答案”?这并不是 AI 故意“说谎”,而是因为它没有能力实时查找最新的外部信息 。大多数语言模型的知识都来自于它们在训练时看到的数据,一旦上线之后,就只能靠这些“老本”来回答问题了。有没有办法让 AI 在面对自己不知道的问题时,也能像人类一样去“查资料”呢?通义实验室发布并开源了 MaskSearch 预训练框架,让 AI 学会“主动搜索 + 多步推理”,从而更准确、更智能地回答复杂问题。


640 (90).png

640 (91).png


预训练新范式:增强通用搜索能力

MaskSearch 提出了一种全新的预训练任务——检索增强掩码预测(RAMP) ,让 AI 在大量“填空题”中学习如何调用搜索引擎、多步推理、逐步还原缺失信息,从而掌握通用的搜索与推理能力。

多智能体协同:生成高质量推理轨迹

通过构建由规划器、重写器、观察器 组成的多智能体系统,MaskSearch 能够自动生成结构清晰、逻辑完整的推理路径(Chain-of-Thought),并借助自进化蒸馏方法快速扩展数据集,为训练提供高质量样本。

强化学习加持:动态混合奖励机制

采用 DAPO 算法 ,结合格式奖励(保证输出结构正确)与回答奖励(确保内容准确),打造高效强化学习流程,进一步提升模型在复杂任务中的表现。

小模型也能有大作为

实验表明,即使是小模型(如 Qwen2.5-1.5B),在经过 MaskSearch 预训练后,也能在多个开放域问答任务中取得显著提升。例如,在 Bamboogle 数据集中性能提升超过 11.78% ,真正做到了“小模型也能挑战大模型”。


640 (92).png


检索增强掩码预测(RAMP)任务

为了更直观地理解 MaskSearch 的工作原理,我们可以来看一下它的整体架构和训练流程(如下图所示):


640 (93).png


MaskSearch 的核心在于它提出的一种全新预训练任务——检索增强掩码预测(RAMP)在这个任务中,模型需要填补句子中的掩码部分,并且必须通过主动搜索和多步推理来完成任务。


640 (94).png


例如,给定一个句子:

Andrew Barto received his [mask] with distinction in [mask] from the University of Michigan in 1970.

AI 需要通过搜索引擎查找相关信息,逐步推理出被遮盖的部分。模型首先分析上下文,判断需要查找的信息是“学位类型”和“专业方向”。随后,它调用搜索引擎进行查询,得到关于 Andrew Barto 的相关信息,并从中提取出关键片段:“Andrew Barto, B.S., math, University of Michigan, 1970”。

接着,AI 进行推理整合,最终填补掩码输出完整句子:

Andrew Barto received his B.S. with distinction in math from the University of Michigan in 1970。

监督微调(SFT)与强化学习(RL)

为了训练 AI 掌握“找答案”的能力,我们采用了两种训练策略:

(1)监督微调(SFT)

为了生成用于监督微调(Supervised Finetuning, SFT)的思维链(CoT)数据,作者提出 Agent 合成与蒸馏结合的数据生成方法。

  • Agent 合成:首先,搭建多智能体系统,纳入规划、搜索改写、观察分析等角色,协同进行思维链的生成任务。最终由一个 LLM 负责答案判断,仅保留正确答案的思维链。
  • 蒸馏:为了快速扩展数据集并保持高质量,使用已有数据训练后的教师模型,直接生成推理轨迹,并逐步迭代教师模型,从而逐步提升数据质量。

(2)强化学习(RL)

在强化学习训练中,采用动态采样策略优化DAPO 算法,结合格式奖励与内容奖励,形成一套高效的训练机制。其中,格式奖励检查模型输出是否符合指定格式,回答奖励则使用 Qwen2.5-72B-Instruct 模型评估生成答案与标准答案的一致性。


课程学习策略:从简单到复杂

MaskSearch 还采用了类似“课程学习”的训练方式:根据句子中被掩码的数量划分任务难度,让模型先掌握基础技能,再应对更具挑战性的任务。这种训练方式帮助模型逐步建立扎实的推理能力,并在面对复杂问题时也能从容应对。


640 (95).png


为了验证 MaskSearch 的实际效果,研究团队在多个主流问答数据集上进行了系统性实验,涵盖了不同规模的语言模型,并对比了多种训练策略下的表现。

HotpotQA、FanoutQA、Musique 等多跳问答任务中,经过 RAMP 预训练的小模型(如 Qwen2.5-1.5B 或 LLaMA-3.2-1B)表现优异,甚至可以媲美更大参数量的模型。这说明,MaskSearch 有效提升了小模型的推理能力,使其具备更强的泛化性和适应性。


640 (96).png


强化学习(RL)在复杂任务中展现出更高的性能上限,尤其在结合 DAPO 算法和混合奖励机制后,模型在召回率、生成质量等方面均优于仅使用监督微调(SFT)的方法。这表明,通过动态采样和奖励引导,AI 能够更精准地优化搜索与推理流程,从而实现更高质量的回答输出。

在验证 MaskSearch 的扩展能力(Scaling Performance)时,我们发现即使是轻量级模型,在经历多轮训练后也能持续提升性能;而大模型虽然增益较小,但依然受益于 RAMP 预训练,显示出该框架良好的通用性和可扩展性。


640 (97).png


我们还设计了一种基于掩码数量的课程学习策略 ,让模型从简单任务逐步过渡到复杂任务。这种由浅入深的训练方式,显著提升了模型在下游任务中的表现,也验证了难度梯度设计对推理能力构建的重要性。


640 (98).png


MaskSearch 在多个模型和任务中都展现出良好的适应性和稳定的性能提升,如果你想深入了解 MaskSearch 的训练机制与技术细节,欢迎查看完整论文

📚论文地址

💻代码库

相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 测试技术
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
581 28
|
20天前
|
运维 监控 关系型数据库
AI 时代的 MySQL 数据库运维解决方案
本方案将大模型与MySQL运维深度融合,构建智能诊断、SQL优化与知识更新的自动化系统。通过知识库建设、大模型调用策略、MCP Server开发及监控闭环设计,全面提升数据库运维效率与准确性,实现从人工经验到智能决策的跃迁。
187 26
|
26天前
|
人工智能 自然语言处理 API
硅基流动入驻阿里云云市场,核心API服务将全面接入阿里云百炼平台💐
2025年6月18日,AI Infra企业硅基流动与阿里云达成战略合作,加入“繁花计划”并入驻云市场。其大模型推理平台SiliconCloud核心API将接入阿里云百炼平台,依托灵骏智能计算集群为客户提供高效服务。作为国内领先的MaaS平台,SiliconCloud已集成百余款开源大模型,服务600万用户及众多企业。双方将在算力协同、行业解决方案等领域深化合作,推动AI生态发展。
|
21天前
|
消息中间件 监控 Cloud Native
量贩零食上云,原生的最划算
鸣鸣很忙集团作为中国最大的休闲食品饮料连锁零售商,旗下“零食很忙”和“赵一鸣零食”两大品牌已覆盖全国28个省份,门店数量超14000家。通过数字化转型,集团在4年内完成了传统企业10多年的数字化进程,实现了人、货、场的全面数字化管理。借助阿里云的全栈云原生方案,集团构建了弹性计算、大数据分析及智能监控体系,保障日均超430万级交易数据的一致性与稳定性,同时优化IT成本并提升运营效率。
|
19天前
|
人工智能 安全 Cloud Native
Nacos 3.0 架构全景解读,AI 时代服务注册中心的演进
Nacos 3.0 正式发布,定位升级为“一个易于构建 AI Agent 应用的动态服务发现、配置管理和 AI 智能体管理平台”。架构上强化了安全性,引入零信任机制,并支持 MCP 服务管理、AI Registry 等新特性,助力 AI 应用高效开发与运行。
|
1月前
|
机器人 异构计算
10分钟,用RAG搭建专业钉钉/飞书客服机器人
只需10分钟,快速搭建专属客服机器人,大幅提升工作效率!通过魔搭社区注册账号、绑定阿里云账号获取免费算力资源,并选择GPU模式运行教程脚本。按照食用指引操作,完成机器人部署并进行对话测试,前5位在评论区提交作业的用户将获赠魔搭社区时尚咖啡杯一个。立即点击教程脚本链接开始体验吧!
173 2
|
1月前
|
机器学习/深度学习 数据采集 人工智能
合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源
上海人工智能实验室开源了生成式世界模型AETHER,该模型仅用合成数据训练,却能在真实环境中展现强大的零样本泛化能力。AETHER首创「重建—预测—规划」一体化框架,融合几何重建与生成建模,大幅提升模型在动态环境中的决策、规划和预测能力。其核心技术包括目标导向视觉规划、4D动态重建和动作条件视频预测,实验结果表明其性能达到或超越现有SOTA水平。论文、模型及项目主页均已开源。
103 4