Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward

简介: 本研究提出Plan-RewardBench轨迹级奖励建模基准,填补了工具型智能体长时序轨迹奖励模型评估的空白,通过严谨的数据集构建与统一测评,证实现有奖励模型在轨迹级判别上存在显著缺陷,长时序规划、动态约束跟踪、安全拒绝等能力亟待提升,为智能体对齐研究提供了关键测评与数据支撑。

作者信息

南京大学新型软件技术国家重点实验室、南京大学智能科学技术学院、阿里巴巴高德地图

研究背景

  1. 大语言模型正从被动对话系统演进为可自主调用工具、完成复杂推理的智能体系统,模型行为从单轮回复转变为包含用户输入、推理、工具执行与环境反馈的轨迹序列。
  2. 传统基于人类反馈的强化学习(RLHF)中,奖励模型(RM)是模型对齐的核心信号源,但现有奖励模型评估基准存在明显缺陷:
    • 主流基准仅聚焦短上下文场景下的单轮回复偏好评估,缺乏对复杂推理过程与多轮交互的覆盖;
    • 长上下文奖励模型研究多依赖人工扩展上下文,无法刻画智能体工作流的自然复杂度与动态依赖关系;
    • 专用工具使用基准仅验证单轮原子动作正确性,忽略连贯的长时序规划行为评估;
    • 现有方案无法在工具集成环境中,对奖励模型区分优质与劣质智能体轨迹的能力进行严谨测评。
  3. 智能体奖励建模需同时评估最终结果与中间步骤的合理性、一致性与安全性,现有评估体系无法满足该需求。

研究目的

  1. 填补工具集成环境下轨迹级奖励模型专用评估基准的空白,解决现有基准无法测评长时序、多步骤智能体轨迹奖励建模能力的问题。
  2. 构建覆盖复杂工具使用场景的轨迹级偏好基准,精准测评奖励模型在智能体规划逻辑、工具使用保真度、安全拒绝、错误恢复等维度的判别能力。
  3. 提供可复用的智能体偏好数据构建方案,为判别式奖励模型(DRM)、生成式奖励模型(GRM)与智能体强化学习提供高质量训练信号。
  4. 诊断现有奖励模型在轨迹级评估中的失效模式,为下一代规划中心型智能体的对齐研究提供方向。

本文核心贡献

image

  1. 提出首个面向复杂工具智能体的轨迹级偏好基准Plan-RewardBench,覆盖安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复四大任务家族,可高分辨率测评奖励模型的轨迹判别能力。
  2. 设计可复用的多源智能体偏好数据构建流程,融合多模型自然推演、规则扰动、最小编辑扰动三种方式,为轨迹级奖励模型训练提供标准化数据方案。
  3. 构建包含高质量标注与高难度负样本的数据集,通过多LLM评审团+元评审过滤+人工审核保证标签可靠性,严格控制长度、格式偏差以隔离语义失效问题。
  4. 完成主流奖励模型(判别式、生成式、LLM评判器)的统一测评,揭示不同模型在长时序轨迹下的性能退化规律与典型失效模式,验证专用轨迹级奖励建模训练的必要性。

研究方法

1. 任务设定

将基准定义为轨迹成对偏好任务,每个样本包含工具环境、多轮用户交互、两条候选轨迹,依据规划质量、工具接地性、恢复行为、拒绝质量等标准给出金标准偏好标签,支持成对比较与单点打分两种评估模式。

2. 数据来源与构建

  1. 种子数据:基于Toucan项目的真实MCP工具注册信息与工具执行结果;
  2. 候选轨迹生成:使用Qwen-Agent、OpenAIAgent运行多模型、多采样参数推演,获取自然成功与失败轨迹(占比70%);
  3. 高难度负样本构建:
    • 规则扰动:注入约束丢失、参数错误、盲目重试等可控失效;
    • 最小编辑扰动:对高分轨迹小幅修改,保留风格同时引入特定缺陷;
  4. 轨迹过滤:剔除格式错误、执行失败等异常样本,统计长度、轮数等特征用于分层分析。

3. 场景家族与标注

  1. 四大场景:安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复,各场景设计专属评判规则与负样本类型;
  2. 标注流程:多LLM评审团1-5分打分→元评审处理分歧→人工分层审核→成对组装(控制难度与偏差)→独立成对校验确认标签。

4. 评估方案

  1. 测评模型:判别式奖励模型(DRM)、生成式奖励模型(GRM)、通用LLM评判器;
  2. 输入表示:统一提供工具环境、对话历史、完整轨迹,固定环境与用户意图,仅对比智能体轨迹差异;
  3. 指标与偏差控制:核心指标为成对准确率,采用A/B交换缓解位置偏差,按轨迹长度、轮数、场景难度分层分析。

研究结果

  1. 整体性能:Plan-RewardBench是严苛测评基准,无模型在所有维度占优,最优模型Qwen-Plus整体准确率69.96%,长时序复杂规划任务上模型普遍难以突破70%。
  2. 模型类型差异:
    • 通用LLM评判器整体表现最优,但长上下文退化最明显;
    • 大参数量判别式奖励模型(Inf-ORM-Llama3.1-70B)竞争力强,准确率69.21%,在错误恢复场景表现突出;
    • 开源判别式奖励模型在安全拒绝场景接近随机水平。
  3. 场景表现:
    • 安全拒绝场景极化最严重,模型准确率跨度40.69%–84.80%;
    • 工具无关场景易受“努力偏差”影响,偏好冗余工具调用;
    • 复杂规划场景随轨迹长度增加,模型难以跟踪动态约束更新;
    • 错误恢复场景模型难区分盲目重试与智能修复。
  4. 长度敏感性:轨迹长度小于4k tokens时性能稳定,超过32k tokens后准确率急剧下降,部分模型低于随机水平;成对LLM评判器退化比单点判别式模型更剧烈。
  5. 下游验证:在BFCL v4工具调用任务的best-of-N重排序中,Plan-RewardBench上表现更好的评判器,下游任务提升更显著。

总结与展望

本研究提出Plan-RewardBench轨迹级奖励建模基准,填补了工具型智能体长时序轨迹奖励模型评估的空白,通过严谨的数据集构建与统一测评,证实现有奖励模型在轨迹级判别上存在显著缺陷,长时序规划、动态约束跟踪、安全拒绝等能力亟待提升,为智能体对齐研究提供了关键测评与数据支撑。

局限性

  1. 复杂规划的金标准标签存在一定主观性;
  2. 工具注册库未覆盖所有专有API;
  3. 场景分布非均匀,安全拒绝样本量较小;
  4. 当前仅支持英文、纯文本工具轨迹。

未来展望

  1. 拓展至多模态、多智能体场景的轨迹级奖励建模;
  2. 基于本基准训练专用轨迹级奖励模型,提升长时序智能体对齐效果;
  3. 完善更多工具环境与任务家族,扩展基准覆盖范围;
  4. 结合本基准的难度分级,设计课程学习式奖励模型训练方案。
相关文章
|
3月前
|
搜索推荐 数据挖掘 测试技术
LLM推理时计算技术详解:四种提升大模型推理能力的方法
2025年LLM发展新趋势:不卷训练,专攻推理!本文详解四大推理时计算技术——Chain-of-Thought(深度)、Self-Consistency(宽度)、Tree-of-Thoughts(搜索)、Reflexion/Self-Refine(迭代),配可运行代码与实战对比,助你在不重训模型前提下显著提升性能。
424 0
LLM推理时计算技术详解:四种提升大模型推理能力的方法
|
传感器
【STM32】I2C练习,SHT3X温度传感器的数据读取
【STM32】I2C练习,SHT3X温度传感器的数据读取
400 0
|
2月前
|
人工智能 监控 API
保姆级教程:1分钟阿里云/本地部署OpenClaw+blogwatcher打造智能资讯系统(百炼Coding Plan配置+精准推送)
“信息过载不是问题,问题是你没有一个系统去过滤它。” 2026年,AI工具的爆发让优质内容呈指数级增长,但也让更多人陷入“刷不完、漏关键”的困境——技术博客的重要更新、行业动态的核心资讯、产品发布的关键细节,往往藏在海量信息流中,要么被错过,要么花费大量时间筛选。
793 5
|
1月前
|
SQL 安全 网络协议
应急响应:勒索软件攻击源IP分析,如何通过IP地址查询定位辅助溯源?
本文聚焦勒索软件应急响应中的IP溯源实战,详解如何从日志提取攻击IP、定性识别代理/跳板、关联C2基础设施,并强调离线IP库在断网取证与合规审计中的关键价值,助力企业从“删病毒”迈向“堵源头”的闭环处置。
应急响应:勒索软件攻击源IP分析,如何通过IP地址查询定位辅助溯源?
|
2月前
|
人工智能 自然语言处理 监控
【养龙虾指南】OpenClaw是什么?能做什么?怎么部署?
“养龙虾”是开发者对开源AI智能体框架OpenClaw的趣味称呼——因其Logo为红小龙虾,“Claw”喻指“动手能力”。它非聊天机器人,而是为大模型(如Qwen、DeepSeek)赋予操作电脑能力的本地优先执行网关,支持文件管理、办公自动化、代码辅助等场景。阿里云提供一键部署,安全可控,助你轻松拥有专属“赛博龙虾”。
1364 2
|
2月前
|
JSON NoSQL Redis
OpenClaw核心源码解读:从Gateway到Pi-embedded的完整调用链分析
本文直击OpenClaw实战痛点,剖析其“云端大脑(Orchestrator)+协议桥(Gateway)+本地执行端(Pi-embedded)”三层解耦架构,详解指令流转、沙箱隔离、节点注册与长连接避坑要点,助开发者快速定位超时、不响应等常见问题。
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
712 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
传感器
基于Arduino的仿生面具
基于Arduino的仿生面具
510 1
|
自然语言处理 数据可视化
【词云图绘制实战】——数据准备、清洗、多形式展示
【词云图绘制实战】——数据准备、清洗、多形式展示
|
机器学习/深度学习 自然语言处理 小程序
MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
Transfermor架构与生俱来的二次计算复杂度,及其所带来的上下文窗口瓶颈,一直为业界所关注。此前,MiniMax开源了MiniMax-01系列模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
911 0