当AI面对“说不清”的需求:如何实现更优解?

简介: 通义DeepResearch联合高德推出ArenaRL,首创基于相对比较的强化学习框架,破解开放域任务“无标准答案”难题。通过构建智能体竞技场,以线性复杂度实现高质量策略持续进化,已在出行规划、深度检索等复杂场景落地,并开源全流程工具与评测基准。

在数学、代码等有标准答案的场景,强化学习已取得瞩目成绩。

但在真实世界里,大多数问题没有唯一解——尤其是那些需求模糊、约束多元、解空间巨大的开放域任务。而出行规划正是这类任务的“天然试验场”。如:“帮我规划一次适合亲子游且性价比高。”这类请求没有标准答案,只有更优解。

为此,通义 DeepResearch 团队联合高德开源了 ArenaRL——专为开放域智能体设计的对比式强化学习方法,并配套开源了训练框架及全流程评测基准。

ArenaRL 要解决的核心问题是:在没有标准答案的复杂任务中,如何让智能体持续进化?
image.png
image.png
在开放域任务中,传统方法面临一个根本困境:判别崩溃。

1、缺乏客观标准答案: 开放任务主观性强,奖励模型难以像数学题那样给出精准的绝对分值。

2、信号淹没: 随着策略模型能力提升,生成的回答质量普遍提高(例如都在 0.8-0.9 分之间)。此时,细微的质量差异远小于评分噪声,导致真实优势信号被掩盖。模型不仅无法继续优化,甚至可能因错误梯度而退化。image.png
当所有方案“看起来都差不多好”,奖励机制就失去了方向。在高德,用户的真实需求往往充满人味:“外滩附近有江景露台、适合约会的酒吧,别太吵。”、“我想来条不累、少排队、又能拍照的路线。”......

这些查询意图模糊、约束多元、结果多样,正是这种复杂性,让传统 RL 的“打分机制”彻底失效。ArenaRL 通过 “相对比较”替代“绝对打分”,构建了一个持续进化的智能体竞技场,让优化信号始终清晰、可追踪。image.png
image.png
ArenaRL 让智能体针对同一指令生成一组候选方案,构建一个微型“竞技场”。系统不再问“这条轨迹得几分?”,而是问“哪一条更合理、更符合用户意图?”image.png
这种成对比较将奖励建模重构为组内相对排序问题,并通过分位奖励映射将离散排名转化为归一化优势信号。相比绝对分数,相对排序天然更能抵抗噪声,敏锐捕捉高质量轨迹间的细微差异,有效规避了训练后期的判别崩溃。image.png
为了寻找效率与准确率的最佳平衡点,我们在论文中系统性地对比了多种竞技拓扑,实验数据(基于 Open-Travel 基准)如下表所示:

image.png

  • 全量循环赛(Round-Robin): 让所有候选方案两两对决。这是评估的理想基准,但O(N^2)指数级的计算复杂度使其无法应用于大规模在线训练。

  • 瑞士轮(Swiss System)与双败淘汰(Double-Elimination): 这类赛制虽比全量循环快,但仍存在局限:瑞士轮复杂度较高(O(N \log N));而双败淘汰虽接近线性复杂度,但在缺乏高质量种子预排序时,容易受随机性影响,排序保真度不足。

  • 基于锚点的排序(Anchor-Based Ranking): 虽然也将复杂度降低至O(N),但它仅将所有候选方案与一个固定的基准(Anchor)进行单点比较。这种方式缺乏候选方案之间的直接博弈,难以分辨高质量方案之间的细微优劣,即论文所述的分辨率缺失(Loss of Resolution),导致排序分辨率受限。
    针对上述痛点,ArenaRL 最终确立了“种子单败淘汰赛”架构:

  • 锚点预排序: 引入贪婪解码生成的基准轨迹作为质量锚点,对候选样本进行快速初筛预排序,确立种子顺位。这有效防止了高质量样本在早期轮次中意外撞车。

  • 线性淘汰: 基于种子顺位进行二叉树式的单败淘汰赛。

实验证明,该机制在将计算复杂度严格控制在O(N)线性水平的同时,其优势估计准确率能够高度逼近全量循环赛,实现了训练效率与效果的最佳平衡。image.png
开放域智能体的优劣不仅取决于最终答案,更取决于推理规划的过程。ArenaRL 引入了过程感知的评估机制,不仅对比最终结果的质量,更深入审视思维链(CoT)的逻辑严密性以及工具调用的精准度。

同时,为了消除大模型作为裁判时的位置偏见,我们采用了双向评分协议,确保每一场对决的评估结果都是公正且细粒度的。image.png
为填补开放域智能体训练与评测数据的空白,我们构建并开源了 Open-Travel 与 Open-DeepResearch 两大基准,并开源了完整的 RL 训练集与测试集。image.png
同时,我们开源了轻量级训练框架 qqr:

技术架构:基于 slime 开发,我们将 ArenaRL 的核心算法与 MCP (Model Context Protocol) 协议进行了深度适配。

即插即用:利用 MCP 协议,实现了 LLM 推理与训练环境的解耦。开发者可以轻松接入本地或远程工具作为环境,快速验证对比式 RL 方法,构建属于自己的智能体进化流程。image.png
为了全面评估 ArenaRL 的效果,我们在Open-Travel(复杂出行规划)、Open-DeepResearch(深度信息检索)以及通用写作三大类任务上进行了系统评测。image.png
核心发现:

1、复杂规划任务能力飞跃 (Open-Travel): 在包含模糊意图与多维时空约束的出行规划任务中,ArenaRL 相比 SFT 基线及传统 RL 方法实现了显著的性能提升,表明锦标赛机制能有效激励模型跳出局部最优,探索更优的规划策略。

2、长链路任务表现突出 (Open-DeepResearch):面对长文本研报任务,传统 RL 方法容易因长度偏差导致生成不可用。ArenaRL 将有效生成率显著提升,改善了长文本任务中的指令遵循难题,大幅提升了生成结果的可用性。

3、强大的任务泛化能力: 在三大通用写作榜单上,ArenaRL 同样表现优异,证明该方法在非工具调用型的通用生成任务上也具备良好的泛化能力。image.png
ArenaRL 不仅在学术基准上领先,更在高德地图真实业务场景中完成落地验证。image.png

  • 在规则明确、结果精准性要求极高的 POI 搜索场景中,ArenaRL 展现了对刚性约束的出色适应能力。这一结果证明了,即使在规则确定的场景下,锦标赛机制也能敏锐捕捉高质量结果之间的细微优劣,从而推动模型性能突破瓶颈。
    image.png
  • 面对真实场景中的复杂模糊需求,ArenaRL 训练的模型展现出了更强的逻辑自洽性与多约束权衡能力,在时间、成本、用户偏好等多重维度间找到更优平衡点,显著提升了复杂长尾场景的用户体验。

我从上海徐汇出发,周末想找一条人少有遮阴可推婴儿车的城市绿道,途中顺路找一家低糖面包店买点心,再去一家可以预约包间的本帮菜馆,整段路线希望尽量不走台阶,傍晚前回到地铁站。

实际应用效果点击下方视频链接查看:
https://cloud.video.taobao.com/vod/3UMDntXOCFdAXgtgczXJXW4UbyfqLAnYZ4P05dY-Cuw.mp4


我们希望 ArenaRL 能为大家提供一套切实可用、可复现、可扩展的开放域智能体进化方案。让 AI 在没有标准答案的真实世界里,依然能持续学习、不断逼近更优解。

相关文章
|
9天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
3天前
|
JSON API 数据格式
OpenCode入门使用教程
本教程介绍如何通过安装OpenCode并配置Canopy Wave API来使用开源模型。首先全局安装OpenCode,然后设置API密钥并创建配置文件,最后在控制台中连接模型并开始交互。
1447 4
|
10天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
1627 17
|
9天前
|
人工智能 JavaScript 前端开发
【2026最新最全】一篇文章带你学会Cursor编程工具
本文介绍了Cursor的下载安装、账号注册、汉化设置、核心模式(Agent、Plan、Debug、Ask)及高阶功能,如@引用、@Doc文档库、@Browser自动化和Rules规则配置,助力开发者高效使用AI编程工具。
1257 5
|
10天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。
|
12天前
|
IDE 开发工具 C语言
【2026最新】VS2026下载安装使用保姆级教程(附安装包+图文步骤)
Visual Studio 2026是微软推出的最新Windows专属IDE,启动更快、内存占用更低,支持C++、Python等开发。推荐免费的Community版,安装简便,适合初学者与个人开发者使用。
1275 12
|
7天前
|
云安全 安全
免费+限量+领云小宝周边!「阿里云2026云上安全健康体检」火热进行中!
诚邀您进行年度自检,发现潜在风险,守护云上业务连续稳健运行
1177 2
|
13天前
|
人工智能 测试技术 开发者
AI Coding后端开发实战:解锁AI辅助编程新范式
本文系统阐述了AI时代开发者如何高效协作AI Coding工具,强调破除认知误区、构建个人上下文管理体系,并精准判断AI输出质量。通过实战流程与案例,助力开发者实现从编码到架构思维的跃迁,成为人机协同的“超级开发者”。
996 93
|
8天前
|
人工智能 JSON 自然语言处理
【2026最新最全】一篇文章带你学会Qoder编辑器
Qoder是一款面向程序员的AI编程助手,集智能补全、对话式编程、项目级理解、任务模式与规则驱动于一体,支持模型分级选择与CLI命令行操作,可自动生成文档、优化提示词,提升开发效率。
774 8
【2026最新最全】一篇文章带你学会Qoder编辑器

热门文章

最新文章