RouteRAG 把多轮 RAG 重新建模为序列决策过程。
它不依赖固定的手工检索流水线或静态指令,而是学到一套策略:推理过程中的特殊 Token 可以触发检索动作。每一步,模型生成一个动作 Token——继续内部推理、经
<search>...</search>
发起检索,或经
<answer>...</answer>
输出最终答案。
<search>
内部用
[passage]
、
[graph]
或两者并列(如
[graph][passage]
)指定检索模式。
图 1 是理解全文的关键。早期基于 RL 的多轮 RAG 方法将推理与段落检索交替执行,奖励信号来自回答正确与否(结果奖励),对检索成本和效率没有做显式优化。
RouteRAG 把检索扩展到段落、图和混合三种模式,训练框架基于 GRPO 分两个阶段:第一阶段只优化正确性,第二阶段加入根据总检索时间计算的效率奖励,鼓励更有选择性的检索行为,同时不牺牲回答质量。
多轮工作流:核心不是写提示,而是学习何时触发
策略模型 πθ 在最多 B 步的预算约束内逐 Token 生成。一旦输出
<search>...</search>
,系统从中解析出子查询
q′
和检索模式
m ∈ {Passage, Graph, Hybrid}
,传递给检索器
R
。检索器返回证据
d
,包裹在
<information>...</information>
标签内回注到上下文,供下一轮推理使用。当模型输出
<answer>...</answer>
后,整个流程终止。
训练时检索预算固定为 B=4,每次检索返回 k=3 个段落。需要注意,RRF 公式中的 k 是另一个含义——平滑超参数,符号上应加以区分。
换言之,模型不再盲目猜测要不要搜、搜什么,而是学做三类决策:何时检索、如何拆分子查询、选用哪种检索模式(段落/图/混合)。
三种检索模式:文本快,图谱深,混合居中
段落检索采用 DPR 风格的稠密检索,把子查询与语料库段落编码到同一嵌入空间,按相似度取 top-k。
基于图的检索先从语料库构建知识图谱(使用 HippoRAG 2),给定查询后从相关节点出发执行个性化 PageRank,沿多跳连接捞取证据。
混合检索用倒数排名融合(Reciprocal Rank Fusion, RRF)合并两路结果。思路很直接:一个文档只要在任一列表里排名靠前,就会在合并排名中获得加分。公式如下:
RRF(d) = ∑ over m ∈ {Passage, Graph} of [1 / (k + rank_m(d))]
任一模式给出高排名的文档在融合后都会被提权,互补证据因此更不容易被遗漏。
两阶段强化学习:先答对,再答快
RouteRAG 的训练算法是 GRPO(Group Relative Policy Optimization),通过组内轨迹比较来稳定学习过程,压低稀疏奖励下的方差。
关键在于奖励怎么设计。
第一阶段只看准确性。答案与标准答案精确匹配得 1 分,否则 0 分。目标很简单:先学会答对。
第二阶段引入效率维度。只有答对的轨迹才参与效率奖励的计算。总检索时间 t 相对批次均值 tavg 做中心化,再除以归一化常数 T(确保 t 和 tavg 缩放到 [0, 0.5] 区间内):
R_efficiency = (t_avg - t) / T
含义明确:答对了但比同批次其他样本慢,依然会受到惩罚。
训练目标结合裁剪策略比率与 KL 惩罚,并用组相对优势 Aᵢ 稳定梯度。在 GRPO 的组内比较和两阶段奖励的共同作用下,策略倾向于选择既正确又检索次数更少的轨迹,而非依赖偶然的策略发现。
评估
实验覆盖五个问答数据集:PopQA、Natural Questions (NQ)、HotpotQA、2WikiMultihopQA (2Wiki) 和 MuSiQue。评估指标为 Exact Match (EM) 和 F1,结果按简单问答(PopQA, NQ)和多跳问答(HotpotQA, 2Wiki, MuSiQue)分组报告,附五个基准的总体均值。
主要发现:RouteRAG 在多跳问答上带来了明显的性能提升,拉高了总体均分,而骨干模型仅是 Qwen2.5–3B-Instruct 和 Qwen2.5–7B-Instruct。多跳问答成绩接近甚至在部分指标上超过了基于 GPT-4o-mini 的图 RAG 系统——图 RAG 基线用的是 GPT-4o-mini,文本 RAG 基线用的是同规格 Qwen2.5——但在简单问答任务上有一定的准确率让步。
案例研究
图 4 展示了训练前后的对比。训练前,模型凭内部知识产生幻觉,例如错误地声称 Johnny Pemberton 在 That '70s Show 中饰演 Bo Thompson,并把该剧归为 Steven Molaro 的作品。训练后模型不再出现这类错误,能将问题拆解为多个子步骤逐步检索,最终正确识别出 Justin Spitzer 才是真正的创作者。
总结
RouteRAG 将"推理—检索—生成"整个循环收归为单一可学习策略:推理过程中自主决定检索什么内容(段落/图/混合)、在什么时刻输出最终答案(受最大步数预算 B 约束),并通过基于 GRPO 的两阶段 RL 框架优化该策略。即使骨干模型只有 3B 和 7B 的参数量,效果提升依然可观。
但 RouteRAG 最值得关注的点不在于它又给 RAG 加了个新花样。更有意义的是,模型把"何时检索信息"和"何时给出最终答案"纳入了策略学习的范畴,而非写死在启发式规则里。一个直观的数字:对比没有效率奖励的变体,检索轮次从 2.70 降到 2.25,F1 没有下降。
不过两个隐忧可能影响该方法在实际部署中的表现。
泛化能力是第一个。当前实验只涵盖 3B 和 7B 模型,图检索一律用 HippoRAG 2 构建。路由策略换到更大的模型或不同的图构建流水线上表现如何,目前没有数据。生产环境中图谱的质量、覆盖面随时可能变化,检索规划器的行为也会跟着漂移。
第二个是奖励设计本身。RouteRAG 以批次级别平均检索时间为锚点来鼓励效率,论文认为这一设计降低了检索时间中的噪声并稳定了训练。但是否会系统性地压制较慢的图检索路径,论文并未直接验证——这是一个合理但尚无实证的风险。对于长尾多跳问题,图推理往往不可或缺。RouteRAG 的设计(仅对正确轨迹施加效率奖励 + GRPO 组相对优势)在机制上鼓励选择性检索且不应牺牲回答质量,但它无法保证那些慢却必要的图检索路径总是能被优先选中。
https://avoid.overfit.cn/post/abef1e92835748e7bd2f17499622c525
by Florian June