当AI面对“说不清”的需求:如何实现更优解?

简介: 通义DeepResearch联合高德推出ArenaRL,首创基于相对比较的强化学习框架,破解开放域任务“无标准答案”难题。通过构建智能体竞技场,以线性复杂度实现高质量策略持续进化,已在出行规划、深度检索等复杂场景落地,并开源全流程工具与评测基准。

在数学、代码等有标准答案的场景,强化学习已取得瞩目成绩。

但在真实世界里,大多数问题没有唯一解——尤其是那些需求模糊、约束多元、解空间巨大的开放域任务。而出行规划正是这类任务的“天然试验场”。如:“帮我规划一次适合亲子游且性价比高。”这类请求没有标准答案,只有更优解。

为此,通义 DeepResearch 团队联合高德开源了 ArenaRL——专为开放域智能体设计的对比式强化学习方法,并配套开源了训练框架及全流程评测基准。

ArenaRL 要解决的核心问题是:在没有标准答案的复杂任务中,如何让智能体持续进化?
image.png
image.png
在开放域任务中,传统方法面临一个根本困境:判别崩溃。

1、缺乏客观标准答案: 开放任务主观性强,奖励模型难以像数学题那样给出精准的绝对分值。

2、信号淹没: 随着策略模型能力提升,生成的回答质量普遍提高(例如都在 0.8-0.9 分之间)。此时,细微的质量差异远小于评分噪声,导致真实优势信号被掩盖。模型不仅无法继续优化,甚至可能因错误梯度而退化。image.png
当所有方案“看起来都差不多好”,奖励机制就失去了方向。在高德,用户的真实需求往往充满人味:“外滩附近有江景露台、适合约会的酒吧,别太吵。”、“我想来条不累、少排队、又能拍照的路线。”......

这些查询意图模糊、约束多元、结果多样,正是这种复杂性,让传统 RL 的“打分机制”彻底失效。ArenaRL 通过 “相对比较”替代“绝对打分”,构建了一个持续进化的智能体竞技场,让优化信号始终清晰、可追踪。image.png
image.png
ArenaRL 让智能体针对同一指令生成一组候选方案,构建一个微型“竞技场”。系统不再问“这条轨迹得几分?”,而是问“哪一条更合理、更符合用户意图?”image.png
这种成对比较将奖励建模重构为组内相对排序问题,并通过分位奖励映射将离散排名转化为归一化优势信号。相比绝对分数,相对排序天然更能抵抗噪声,敏锐捕捉高质量轨迹间的细微差异,有效规避了训练后期的判别崩溃。image.png
为了寻找效率与准确率的最佳平衡点,我们在论文中系统性地对比了多种竞技拓扑,实验数据(基于 Open-Travel 基准)如下表所示:

image.png

  • 全量循环赛(Round-Robin): 让所有候选方案两两对决。这是评估的理想基准,但O(N^2)指数级的计算复杂度使其无法应用于大规模在线训练。

  • 瑞士轮(Swiss System)与双败淘汰(Double-Elimination): 这类赛制虽比全量循环快,但仍存在局限:瑞士轮复杂度较高(O(N \log N));而双败淘汰虽接近线性复杂度,但在缺乏高质量种子预排序时,容易受随机性影响,排序保真度不足。

  • 基于锚点的排序(Anchor-Based Ranking): 虽然也将复杂度降低至O(N),但它仅将所有候选方案与一个固定的基准(Anchor)进行单点比较。这种方式缺乏候选方案之间的直接博弈,难以分辨高质量方案之间的细微优劣,即论文所述的分辨率缺失(Loss of Resolution),导致排序分辨率受限。
    针对上述痛点,ArenaRL 最终确立了“种子单败淘汰赛”架构:

  • 锚点预排序: 引入贪婪解码生成的基准轨迹作为质量锚点,对候选样本进行快速初筛预排序,确立种子顺位。这有效防止了高质量样本在早期轮次中意外撞车。

  • 线性淘汰: 基于种子顺位进行二叉树式的单败淘汰赛。

实验证明,该机制在将计算复杂度严格控制在O(N)线性水平的同时,其优势估计准确率能够高度逼近全量循环赛,实现了训练效率与效果的最佳平衡。image.png
开放域智能体的优劣不仅取决于最终答案,更取决于推理规划的过程。ArenaRL 引入了过程感知的评估机制,不仅对比最终结果的质量,更深入审视思维链(CoT)的逻辑严密性以及工具调用的精准度。

同时,为了消除大模型作为裁判时的位置偏见,我们采用了双向评分协议,确保每一场对决的评估结果都是公正且细粒度的。image.png
为填补开放域智能体训练与评测数据的空白,我们构建并开源了 Open-Travel 与 Open-DeepResearch 两大基准,并开源了完整的 RL 训练集与测试集。image.png
同时,我们开源了轻量级训练框架 qqr:

技术架构:基于 slime 开发,我们将 ArenaRL 的核心算法与 MCP (Model Context Protocol) 协议进行了深度适配。

即插即用:利用 MCP 协议,实现了 LLM 推理与训练环境的解耦。开发者可以轻松接入本地或远程工具作为环境,快速验证对比式 RL 方法,构建属于自己的智能体进化流程。image.png
为了全面评估 ArenaRL 的效果,我们在Open-Travel(复杂出行规划)、Open-DeepResearch(深度信息检索)以及通用写作三大类任务上进行了系统评测。image.png
核心发现:

1、复杂规划任务能力飞跃 (Open-Travel): 在包含模糊意图与多维时空约束的出行规划任务中,ArenaRL 相比 SFT 基线及传统 RL 方法实现了显著的性能提升,表明锦标赛机制能有效激励模型跳出局部最优,探索更优的规划策略。

2、长链路任务表现突出 (Open-DeepResearch):面对长文本研报任务,传统 RL 方法容易因长度偏差导致生成不可用。ArenaRL 将有效生成率显著提升,改善了长文本任务中的指令遵循难题,大幅提升了生成结果的可用性。

3、强大的任务泛化能力: 在三大通用写作榜单上,ArenaRL 同样表现优异,证明该方法在非工具调用型的通用生成任务上也具备良好的泛化能力。image.png
ArenaRL 不仅在学术基准上领先,更在高德地图真实业务场景中完成落地验证。image.png

  • 在规则明确、结果精准性要求极高的 POI 搜索场景中,ArenaRL 展现了对刚性约束的出色适应能力。这一结果证明了,即使在规则确定的场景下,锦标赛机制也能敏锐捕捉高质量结果之间的细微优劣,从而推动模型性能突破瓶颈。
    image.png
  • 面对真实场景中的复杂模糊需求,ArenaRL 训练的模型展现出了更强的逻辑自洽性与多约束权衡能力,在时间、成本、用户偏好等多重维度间找到更优平衡点,显著提升了复杂长尾场景的用户体验。

我从上海徐汇出发,周末想找一条人少有遮阴可推婴儿车的城市绿道,途中顺路找一家低糖面包店买点心,再去一家可以预约包间的本帮菜馆,整段路线希望尽量不走台阶,傍晚前回到地铁站。

实际应用效果点击下方视频链接查看:
https://cloud.video.taobao.com/vod/3UMDntXOCFdAXgtgczXJXW4UbyfqLAnYZ4P05dY-Cuw.mp4


我们希望 ArenaRL 能为大家提供一套切实可用、可复现、可扩展的开放域智能体进化方案。让 AI 在没有标准答案的真实世界里,依然能持续学习、不断逼近更优解。

相关文章
|
22天前
|
开发者
Qwen的新里程碑🥳
Qwen衍生模型数量突破20万,成为全球首个达成此目标的开源大模型!
141 0
|
22天前
|
人工智能
全栈AI服务世界!一图看懂阿里云2025全球化进展
全栈AI服务世界!一图看懂阿里云2025全球化进展
150 2
|
29天前
|
人工智能 安全 调度
AI工程vs传统工程 —「道法术」中的变与不变
本文从“道、法、术”三个层面对比AI工程与传统软件工程的异同,指出AI工程并非推倒重来,而是在传统工程坚实基础上,为应对大模型带来的不确定性(如概率性输出、幻觉、高延迟等)所进行的架构升级:在“道”上,从追求绝对正确转向管理概率预期;在“法”上,延续分层解耦、高可用等原则,但建模重心转向上下文工程与不确定性边界控制;在“术”上,融合传统工程基本功与AI新工具(如Context Engineering、轨迹可视化、多维评估体系),最终以确定性架构驾驭不确定性智能,实现可靠价值交付。
356 41
AI工程vs传统工程 —「道法术」中的变与不变
|
26天前
|
弹性计算 安全 Linux
建站教程:使用阿里云服务器安装Z-Blog博客网站流程,新手一键部署指南
本教程详解如何在阿里云99元服务器上通过宝塔面板快速搭建ZBlog博客。基于CentOS 7.9系统,先安装宝塔面板,开放安全组端口,再一键部署Z-BlogPHP,全程图文指导,简单易懂,新手也能轻松完成博客搭建。
202 2
|
2月前
|
SQL 人工智能 缓存
阿里云百炼产品月刊【2025年11月】
通义千问本月重磅升级:上线10款多模态与语音模型,涵盖ASR、TTS、视觉语言及翻译;MCP市场新增3个云服务,上架24个电商应用模板;推出实训Agent创客活动,助力高效生成电商视觉内容。
813 10
|
3月前
|
人工智能 双11 开发者
中小电商卖家福音!用AI 3分钟搞定高转化主图+详情页!
还在为电商设计成本高、效率低发愁?阿里云百炼全新推出「一键生成电商组图」功能,AI智能生成主图、详情页等视觉素材,零设计基础也能快速出图!限时参与活动,赢定制好礼,更有超值Tokens优惠包,助力爆款打造!
|
11天前
|
人工智能 JSON 自然语言处理
阿里云百炼产品月报【2026年1月】
阿里云百炼本月重磅升级:应用与知识库全面商业化,支持音视频多模态检索;Qwen3-Max模型直降60%,推出AI通用型节省计划;上线134+开箱即用模板及8款新模型;新客 Coding Plan 首月仅10元,配套“打工人AI提效课”与新春创意活动。
601 8
阿里云百炼产品月报【2026年1月】

热门文章

最新文章