ReSearch:基于强化学习的大语言模型推理搜索框架

简介: ReSearch是一种创新框架,利用强化学习训练大语言模型执行“推理搜索”,无需监督数据。它将搜索操作融入推理链,通过文本推理决定搜索时机与方式,并用搜索结果引导后续推理。研究显示,ReSearch自然形成高级推理能力,如反思与自我纠正。技术上,采用特定标签封装搜索查询与结果,迭代生成响应。实验基于Qwen2.5等模型,使用MuSiQue数据集训练,在多跳问答任务中显著超越基线模型,展现出强大泛化能力。动态分析表明,模型逐渐学会通过迭代搜索解决复杂问题,奖励指标也呈现稳定增长趋势。

ReSearch是一种创新性框架,通过强化学习技术训练大语言模型执行"推理搜索",无需依赖推理步骤的监督数据。该方法将搜索操作视为推理链的有机组成部分,其中搜索的时机与方式由基于文本的推理过程决定,而搜索结果进一步引导后续推理。研究分析表明,ReSearch在强化学习训练过程中自然地形成了高级推理能力,包括反思与自我纠正机制。

技术方法

ReSearch的训练架构概述

与传统的仅包含文本推理的推理过程相比,ReSearch框架中的推理过程融合了搜索查询与检索结果。系统采用

<search>

</search>

标签来封装搜索查询,使用

<result>

</result>

标签来封装检索结果,这些格式规范在提示模板中明确定义。整个推理过程构成了基于文本的思考、搜索查询和检索结果之间的迭代循环。具体实现中,当生成过程遇到

</search>

标签时,系统会提取最近的

<search>

与当前

</search>

标签之间的内容作为查询语句,用于检索相关事实信息,检索结果则被

<result>

</result>

标签封装。随后,系统将现有推理与检索结果串联作为下一轮输入,以迭代方式生成后续响应,直至生成过程遇到结束句子(EOS)标记。

基础模型的提示模板:

 A conversation between User and Assistant. 
The user asks a question, and the assistant solves it. 
The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. 
During thinking, the assistant can invoke the wikipedia search tool to search for fact information about specific topics if needed. 
The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags respectively,
and the search query and result are enclosed within <search> </search> and <result> </result> tags respectively. 
For example, 
<think> This is the reasoning process. </think>
<search> search query here </search> 
<result> search result here </result> 
<think> This is the reasoning process. </think> 
<answer> The final answer is \boxed{answer here} </answer>. 
In the last part of the answer, the final exact answer is enclosed within \boxed{} with latex format. 
 User: prompt. Assistant:

指令模型的系统提示:

 You are a helpful assistant that can solve the given question step by step with the help of the wikipedia search tool. 
Given a question, you need to first think about the reasoning process in the mind and then provide the answer. 
During thinking, you can invoke the wikipedia search tool to search for fact information about specific topics if needed. 
The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags respectively,
and the search query and result are enclosed within <search> </search> and <result> </result> tags respectively. 
For example, 
<think> This is the reasoning process. </think>
<search> search query here </search> 
<result> search result here </result> 
<think> This is the reasoning process. </think> 
<answer> The final answer is \boxed{answer here} </answer>. 
 In the last part of the answer, the final exact answer is enclosed within \boxed{} with latex format.

与原始GRPO不同,ReSearch中的损失函数计算经过了特殊处理。由于推理过程中包含的检索结果并非由训练策略生成,而是由搜索环境检索得到,因此在损失计算中对检索结果部分进行了掩码处理,以避免训练策略对检索结果产生不必要的偏好。

ReSearch的奖励函数设计包含两个核心组成部分:答案奖励和格式奖励:

  • 答案奖励:通过F1分数计算\boxed{}中的最终答案与真实答案之间的正确性。
  • 格式奖励:验证推理过程是否正确遵循了提示模板中规定的格式规范,重点检查标签的正确使用以及答案中\boxed{}的存在。

推理过程的最终奖励函数表达式如下:

实验配置

研究团队在Qwen2.5–7B、Qwen2.5–7B-Instruct、Qwen2.5–32B和Qwen2.5–32B-Instruct模型上进行了训练与评估。训练仅使用MuSiQue的训练集(19,938个样本),该数据集包含多种类型的多跳问题,并经过严格的质量控制构建。模型训练周期为2个完整周期。

在知识检索方面,研究采用E5-base-v2作为检索引擎,选用2018年12月的Wikipedia数据作为知识库。

评估采用了四个标准基准测试集来评估多跳问答任务性能:HotpotQA、WikiMultiHopQA、MuSiQue和Bamboogle。其中,HotpotQA、WikiMultiHopQA和MuSiQue通过不同的众包多跳挖掘策略在维基百科或维基数据中构建,而Bamboogle则是一个手动构建的挑战性数据集,包含双跳问题,其难度足以使主流互联网搜索引擎无法提供准确答案。

评估结果

多跳问答基准测试上的精确匹配(EM,%)和LLM-as-a-Judge(LJ,%)评估结果

ReSearch框架在评估中展现了显著的性能优势:

  • 显著超越基线模型:在所有基准测试中,ReSearch相比最佳基线模型,7B参数规模模型在精确匹配指标上平均提升了15.81%,在LLM-as-a-Judge指标上提升了17.56%;32B参数规模模型在精确匹配指标上平均提升了14.82%,在LLM-as-a-Judge指标上提升了15.46%。
  • 指令微调效果显著:以指令微调过的LLM作为ReSearch的基础模型,相较于使用基础LLM,性能获得进一步提升。这一现象在所有基准测试和不同模型规模上均表现一致。
  • 泛化能力强劲:尽管仅在MuSiQue数据集上进行训练,ReSearch仍能有效泛化到其他具有不同问题类型和结构的基准测试中,证明所学习的推理能力具有跨数据集的通用性。

训练过程中的响应长度和搜索操作数量变化

训练动态分析揭示了以下规律:

  • 响应长度呈增长趋势:响应长度在训练过程中普遍呈现增长趋势,指令微调模型生成的响应通常长于基础模型。32B规模模型展现了独特的模式,初始阶段响应长度下降,随后再次上升,这可能反映了模型从依赖固有知识到有效利用检索结果的学习过程转变。
  • 搜索操作持续增加:搜索操作数量在整个训练过程中稳步增长,表明模型逐渐学习到如何通过迭代搜索解决复杂多跳问题的能力。

训练过程中的训练和验证奖励变化

奖励指标分析表明:

  • 奖励增长模式:训练和验证奖励在初始训练阶段呈现急剧上升趋势,随后进入平缓的持续提升阶段。指令微调模型从较高的奖励水平开始训练。7B规模模型最终收敛至相近的奖励水平,而32B指令微调模型始终维持高于其基础对应模型的奖励水平。

论文:https://arxiv.org/abs/2503.19470

github:https://github.com/Agent-RL/ReSearch

作者:Ritvik Rastogi

目录
相关文章
|
10月前
|
机器学习/深度学习 人工智能 算法
《强化学习“新势力”:策略梯度算法大揭秘》
策略梯度算法是强化学习中的核心方法,直接优化智能体的策略以最大化奖励。REINFORCE算法作为基础,通过蒙特卡洛采样估计策略梯度,但存在高方差问题,可通过引入基线或标准化累积奖励来改善。Actor-Critic算法结合价值函数估计,降低方差并实现实时更新,适用于复杂任务。DDPG扩展至连续动作空间,而TD3进一步优化稳定性。PPO和TRPO则通过限制策略更新幅度提升训练可靠性。这些算法各具特色,在机器人控制、自动驾驶等领域展现巨大潜力,推动强化学习不断突破。
399 3
|
10月前
|
人工智能 缓存 自然语言处理
electron35-vue3-deepseek客户端流式输出AI对话系统
Electron35-DeepSeek桌面端AI系统|vue3.5+electron+arco客户端ai模板。2025跨平台ai实战electron35+vite6+arco仿DeepSeek/豆包ai流式打字聊天助手。
414 4
|
10月前
|
人工智能 自然语言处理 算法
《解锁跨模态魔法:DALL - E等模型的进阶之路》
DALL·E是OpenAI推出的一款革命性文生图模型,它通过跨模态内容生成技术,将文本描述转化为栩栩如生的图像。作为跨模态变革的领军者,DALL·E从初代到DALL·E3不断进化,新增构图扩展、局部修改和生成变体等功能,并借助ChatGPT优化提示语理解力。它不仅与CLIP等模型协作推动技术生态繁荣,还在广告设计、影视制作、教育和游戏开发等领域展现巨大潜力。尽管面临版权、虚假信息等挑战,DALL·E仍将持续创新,引领创意新时代。
387 9
|
10月前
|
存储 自然语言处理 PyTorch
从零开始用Pytorch实现LLaMA 4的混合专家(MoE)模型
近期发布的LLaMA 4模型引入混合专家(MoE)架构,以提升效率与性能。尽管社区对其实际表现存在讨论,但MoE作为重要设计范式再次受到关注。本文通过Pytorch从零实现简化版LLaMA 4 MoE模型,涵盖数据准备、分词、模型构建(含词元嵌入、RoPE、RMSNorm、多头注意力及MoE层)到训练与文本生成全流程。关键点包括MoE层实现(路由器、专家与共享专家)、RoPE处理位置信息及RMSNorm归一化。虽规模小于实际LLaMA 4,但清晰展示MoE核心机制:动态路由与稀疏激活专家,在控制计算成本的同时提升性能。完整代码见链接,基于FareedKhan-dev的Github代码修改而成。
461 9
从零开始用Pytorch实现LLaMA 4的混合专家(MoE)模型
|
10月前
|
编解码 边缘计算 文字识别
SmolVLM:资源受限环境下的高效多模态模型研究
SmolVLM是一系列专为资源受限设备多模态模型,通过优化架构与训练策略,在图像和视频处理任务中表现出接近大型模型的性能。该系列包含三种变体:SmolVLM-256M、500M和2.2B,分别适用于极端边缘计算、中等资源设备及高端边缘系统。研究探索了视觉与语言组件间的参数分配、高效视觉信息传递机制、视频编码策略等关键技术,并在多个基准测试中展现出卓越性能。SmolVLM不仅在计算效率和内存占用上具有显著优势,还在设备端部署中表现出高吞吐量和广泛适用性,适用于智能手机、笔记本电脑以及专业领域如文档理解与生物医学视觉问答等场景。论文由Ritvik Rastogi发布,详细探讨了模型设计与实验结果。
507 3
SmolVLM:资源受限环境下的高效多模态模型研究
|
人工智能 自然语言处理 数据可视化
解锁DeepSeek V3.2新玩法!数眼智能接入联网搜索和网页阅读能力!基于Dify开发AI智能体技术分享与应用实践
DeepSeek-V3.2以极致性价比实现性能飞跃,推理能力超GPT-4o,API价格仅其1%。支持128K长上下文与智能agent,结合Dify平台可构建高效联网搜索助手,实现实时信息获取与精准回答引用,真正“好用不贵”。
573 1
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
《神经符号计算:开启AI新纪元的钥匙》
神经符号计算是融合神经网络与符号推理的新兴技术,旨在解决深度学习可解释性差、逻辑推理能力弱等问题。它结合神经网络的数据处理优势和符号推理的规则清晰特性,在医疗诊断、自动驾驶、自然语言处理、智能机器人等领域展现出强大潜力。通过将先验知识融入神经网络,神经符号计算实现了更高效、准确的决策与推理,为AI发展开辟新方向,推动技术向更高层次迈进,为未来生活带来更多可能。
386 3
|
7月前
|
安全 Linux 测试技术
【实战指南】记一次定位fd泄漏问题
本文记录了一次文件描述符(fd)泄漏问题的排查过程。在项目压测中,进程因打开过多文件导致fd资源耗尽,最终无法创建新文件。通过分析错误码、查看/proc/pid/fd路径下的文件句柄信息,定位到临时文件未正确关闭的问题根源,并修复代码中遗漏的close调用。同时总结了Linux下进程资源限制的相关知识点,强调开发中应关注资源使用情况,避免类似问题发生。
368 56
|
10月前
|
人工智能 弹性计算 运维
简单快捷部署 | Bolt.diy 一步搞定创意建站
Bolt.diy 是 Bolt.new 的开源版本,提供全栈开发支持与自然语言交互功能,简化开发流程并允许二次开发。通过阿里云 CAP 平台部署,结合百炼大模型服务和 deepseek-v3 实现代码生成,用户可专注于应用创新。部署前需确保主账户资金充足,完成部署后配置 API-Key 即可使用。支持模型选择、代码下载等功能,适用于快速建站与创意开发需求。
245 10
|
10月前
|
存储 人工智能 项目管理
2025年GitHub平台上的十大开源MCP服务器汇总分析
本文深入解析了GitHub上十个代表性MCP(Model Context Protocol)服务器项目,探讨其在连接AI与现实世界中的关键作用。这些服务器实现了AI模型与应用程序、数据库、云存储、项目管理等工具的无缝交互,扩展了AI的应用边界。文中涵盖Airbnb、Supabase、AWS-S3、Kubernetes等领域的MCP实现方案,展示了AI在旅行规划、数据处理、云存储、容器编排等场景中的深度应用。未来,MCP技术将向标准化、安全性及行业定制化方向发展,为AI系统集成提供更强大的支持。
2307 2
2025年GitHub平台上的十大开源MCP服务器汇总分析