Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward-阿里云开发者社区

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward

2026-04-21 89

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本研究提出Plan-RewardBench轨迹级奖励建模基准，填补了工具型智能体长时序轨迹奖励模型评估的空白，通过严谨的数据集构建与统一测评，证实现有奖励模型在轨迹级判别上存在显著缺陷，长时序规划、动态约束跟踪、安全拒绝等能力亟待提升，为智能体对齐研究提供了关键测评与数据支撑。

作者信息

南京大学新型软件技术国家重点实验室、南京大学智能科学技术学院、阿里巴巴高德地图

大语言模型正从被动对话系统演进为可自主调用工具、完成复杂推理的智能体系统，模型行为从单轮回复转变为包含用户输入、推理、工具执行与环境反馈的轨迹序列。
传统基于人类反馈的强化学习（RLHF）中，奖励模型（RM）是模型对齐的核心信号源，但现有奖励模型评估基准存在明显缺陷：
- 主流基准仅聚焦短上下文场景下的单轮回复偏好评估，缺乏对复杂推理过程与多轮交互的覆盖；
- 长上下文奖励模型研究多依赖人工扩展上下文，无法刻画智能体工作流的自然复杂度与动态依赖关系；
- 专用工具使用基准仅验证单轮原子动作正确性，忽略连贯的长时序规划行为评估；
- 现有方案无法在工具集成环境中，对奖励模型区分优质与劣质智能体轨迹的能力进行严谨测评。
智能体奖励建模需同时评估最终结果与中间步骤的合理性、一致性与安全性，现有评估体系无法满足该需求。

提出首个面向复杂工具智能体的轨迹级偏好基准Plan-RewardBench，覆盖安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复四大任务家族，可高分辨率测评奖励模型的轨迹判别能力。
设计可复用的多源智能体偏好数据构建流程，融合多模型自然推演、规则扰动、最小编辑扰动三种方式，为轨迹级奖励模型训练提供标准化数据方案。
构建包含高质量标注与高难度负样本的数据集，通过多LLM评审团+元评审过滤+人工审核保证标签可靠性，严格控制长度、格式偏差以隔离语义失效问题。
完成主流奖励模型（判别式、生成式、LLM评判器）的统一测评，揭示不同模型在长时序轨迹下的性能退化规律与典型失效模式，验证专用轨迹级奖励建模训练的必要性。

将基准定义为轨迹成对偏好任务，每个样本包含工具环境、多轮用户交互、两条候选轨迹，依据规划质量、工具接地性、恢复行为、拒绝质量等标准给出金标准偏好标签，支持成对比较与单点打分两种评估模式。

整体性能：Plan-RewardBench是严苛测评基准，无模型在所有维度占优，最优模型Qwen-Plus整体准确率69.96%，长时序复杂规划任务上模型普遍难以突破70%。
模型类型差异：
- 通用LLM评判器整体表现最优，但长上下文退化最明显；
- 大参数量判别式奖励模型（Inf-ORM-Llama3.1-70B）竞争力强，准确率69.21%，在错误恢复场景表现突出；
- 开源判别式奖励模型在安全拒绝场景接近随机水平。
场景表现：
- 安全拒绝场景极化最严重，模型准确率跨度40.69%–84.80%；
- 工具无关场景易受“努力偏差”影响，偏好冗余工具调用；
- 复杂规划场景随轨迹长度增加，模型难以跟踪动态约束更新；
- 错误恢复场景模型难区分盲目重试与智能修复。
长度敏感性：轨迹长度小于4k tokens时性能稳定，超过32k tokens后准确率急剧下降，部分模型低于随机水平；成对LLM评判器退化比单点判别式模型更剧烈。
下游验证：在BFCL v4工具调用任务的best-of-N重排序中，Plan-RewardBench上表现更好的评判器，下游任务提升更显著。

本研究提出Plan-RewardBench轨迹级奖励建模基准，填补了工具型智能体长时序轨迹奖励模型评估的空白，通过严谨的数据集构建与统一测评，证实现有奖励模型在轨迹级判别上存在显著缺陷，长时序规划、动态约束跟踪、安全拒绝等能力亟待提升，为智能体对齐研究提供了关键测评与数据支撑。