RouteRAG:用特殊 Token 和强化学习构建可学习的 RAG 检索策略

简介: RouteRAG将多轮RAG建模为序列决策过程,模型自主学习何时检索、搜什么、用哪种模式(段落/图/混合),并通过两阶段GRPO强化学习,兼顾答案准确率与检索效率,在多跳问答上显著提升性能。

RouteRAG 把多轮 RAG 重新建模为序列决策过程。

它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、经

<search>...</search>

发起检索,或经

<answer>...</answer>

输出最终答案。

<search>

内部用

[passage]

[graph]

或两者并列(如

[graph][passage]

)指定检索模式。

图 1 是理解全文的关键。早期基于 RL 的多轮 RAG 方法将推理与段落检索交替执行,奖励信号来自回答正确与否(结果奖励),对检索成本和效率没有做显式优化。

RouteRAG 把检索扩展到段落、图和混合三种模式,训练框架基于 GRPO 分两个阶段:第一阶段只优化正确性,第二阶段加入根据总检索时间计算的效率奖励,鼓励更有选择性的检索行为,同时不牺牲回答质量。

多轮工作流:核心不是写提示,而是学习何时触发

策略模型 πθ 在最多 B 步的预算约束内逐 Token 生成。一旦输出

<search>...</search>

,系统从中解析出子查询

q′

和检索模式

m ∈ {Passage, Graph, Hybrid}

,传递给检索器

R

。检索器返回证据

d

,包裹在

<information>...</information>

标签内回注到上下文,供下一轮推理使用。当模型输出

<answer>...</answer>

后,整个流程终止。

训练时检索预算固定为 B=4,每次检索返回 k=3 个段落。需要注意,RRF 公式中的 k 是另一个含义——平滑超参数,符号上应加以区分。

换言之,模型不再盲目猜测要不要搜、搜什么,而是学做三类决策:何时检索、如何拆分子查询、选用哪种检索模式(段落/图/混合)。

三种检索模式:文本快,图谱深,混合居中

段落检索采用 DPR 风格的稠密检索,把子查询与语料库段落编码到同一嵌入空间,按相似度取 top-k。

基于图的检索先从语料库构建知识图谱(使用 HippoRAG 2),给定查询后从相关节点出发执行个性化 PageRank,沿多跳连接捞取证据。

混合检索用倒数排名融合(Reciprocal Rank Fusion, RRF)合并两路结果。思路很直接:一个文档只要在任一列表里排名靠前,就会在合并排名中获得加分。公式如下:

 RRF(d) = ∑ over m ∈ {Passage, Graph} of [1 / (k + rank_m(d))]

任一模式给出高排名的文档在融合后都会被提权,互补证据因此更不容易被遗漏。

两阶段强化学习:先答对,再答快

RouteRAG 的训练算法是 GRPO(Group Relative Policy Optimization),通过组内轨迹比较来稳定学习过程,压低稀疏奖励下的方差。

关键在于奖励怎么设计。

第一阶段只看准确性。答案与标准答案精确匹配得 1 分,否则 0 分。目标很简单:先学会答对。

第二阶段引入效率维度。只有答对的轨迹才参与效率奖励的计算。总检索时间 t 相对批次均值 tavg 做中心化,再除以归一化常数 T(确保 t 和 tavg 缩放到 [0, 0.5] 区间内):

 R_efficiency = (t_avg - t) / T

含义明确:答对了但比同批次其他样本慢,依然会受到惩罚。

训练目标结合裁剪策略比率与 KL 惩罚,并用组相对优势 Aᵢ 稳定梯度。在 GRPO 的组内比较和两阶段奖励的共同作用下,策略倾向于选择既正确又检索次数更少的轨迹,而非依赖偶然的策略发现。

评估

实验覆盖五个问答数据集:PopQA、Natural Questions (NQ)、HotpotQA、2WikiMultihopQA (2Wiki) 和 MuSiQue。评估指标为 Exact Match (EM) 和 F1,结果按简单问答(PopQA, NQ)和多跳问答(HotpotQA, 2Wiki, MuSiQue)分组报告,附五个基准的总体均值。

主要发现:RouteRAG 在多跳问答上带来了明显的性能提升,拉高了总体均分,而骨干模型仅是 Qwen2.5–3B-Instruct 和 Qwen2.5–7B-Instruct。多跳问答成绩接近甚至在部分指标上超过了基于 GPT-4o-mini 的图 RAG 系统——图 RAG 基线用的是 GPT-4o-mini,文本 RAG 基线用的是同规格 Qwen2.5——但在简单问答任务上有一定的准确率让步。

案例研究

图 4 展示了训练前后的对比。训练前,模型凭内部知识产生幻觉,例如错误地声称 Johnny Pemberton 在 That '70s Show 中饰演 Bo Thompson,并把该剧归为 Steven Molaro 的作品。训练后模型不再出现这类错误,能将问题拆解为多个子步骤逐步检索,最终正确识别出 Justin Spitzer 才是真正的创作者。

总结

RouteRAG 将"推理—检索—生成"整个循环收归为单一可学习策略:推理过程中自主决定检索什么内容(段落/图/混合)、在什么时刻输出最终答案(受最大步数预算 B 约束),并通过基于 GRPO 的两阶段 RL 框架优化该策略。即使骨干模型只有 3B 和 7B 的参数量,效果提升依然可观。

但 RouteRAG 最值得关注的点不在于它又给 RAG 加了个新花样。更有意义的是,模型把"何时检索信息"和"何时给出最终答案"纳入了策略学习的范畴,而非写死在启发式规则里。一个直观的数字:对比没有效率奖励的变体,检索轮次从 2.70 降到 2.25,F1 没有下降。

不过两个隐忧可能影响该方法在实际部署中的表现。

泛化能力是第一个。当前实验只涵盖 3B 和 7B 模型,图检索一律用 HippoRAG 2 构建。路由策略换到更大的模型或不同的图构建流水线上表现如何,目前没有数据。生产环境中图谱的质量、覆盖面随时可能变化,检索规划器的行为也会跟着漂移。

第二个是奖励设计本身。RouteRAG 以批次级别平均检索时间为锚点来鼓励效率,论文认为这一设计降低了检索时间中的噪声并稳定了训练。但是否会系统性地压制较慢的图检索路径,论文并未直接验证——这是一个合理但尚无实证的风险。对于长尾多跳问题,图推理往往不可或缺。RouteRAG 的设计(仅对正确轨迹施加效率奖励 + GRPO 组相对优势)在机制上鼓励选择性检索且不应牺牲回答质量,但它无法保证那些慢却必要的图检索路径总是能被优先选中。

https://avoid.overfit.cn/post/abef1e92835748e7bd2f17499622c525

by Florian June

目录
相关文章
|
8天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11018 87
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
8天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
4529 129
|
4天前
|
人工智能 自然语言处理 供应链
【最新】阿里云ClawHub Skill扫描:3万个AI Agent技能中的安全度量
阿里云扫描3万+AI Skill,发现AI检测引擎可识别80%+威胁,远高于传统引擎。
1307 3
|
14天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
2813 6
|
6天前
|
人工智能 并行计算 Linux
本地私有化AI助手搭建指南:Ollama+Qwen3.5-27B+OpenClaw阿里云/本地部署流程
本文提供的全流程方案,从Ollama安装、Qwen3.5-27B部署,到OpenClaw全平台安装与模型对接,再到RTX 4090专属优化,覆盖了搭建过程的每一个关键环节,所有代码命令可直接复制执行。使用过程中,建议优先使用本地模型保障隐私,按需切换云端模型补充功能,同时注重显卡温度与显存占用监控,确保系统稳定运行。
1628 5

热门文章

最新文章