当AI面对“说不清”的需求：如何实现更优解？-阿里云开发者社区

当AI面对“说不清”的需求：如何实现更优解？

2026-01-22 27

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义DeepResearch联合高德推出ArenaRL，首创基于相对比较的强化学习框架，破解开放域任务“无标准答案”难题。通过构建智能体竞技场，以线性复杂度实现高质量策略持续进化，已在出行规划、深度检索等复杂场景落地，并开源全流程工具与评测基准。

在数学、代码等有标准答案的场景，强化学习已取得瞩目成绩。

但在真实世界里，大多数问题没有唯一解——尤其是那些需求模糊、约束多元、解空间巨大的开放域任务。而出行规划正是这类任务的“天然试验场”。如：“帮我规划一次适合亲子游且性价比高。”这类请求没有标准答案，只有更优解。

为此，通义 DeepResearch 团队联合高德开源了 ArenaRL——专为开放域智能体设计的对比式强化学习方法，并配套开源了训练框架及全流程评测基准。

ArenaRL 要解决的核心问题是：在没有标准答案的复杂任务中，如何让智能体持续进化？

在开放域任务中，传统方法面临一个根本困境：判别崩溃。

1、缺乏客观标准答案：开放任务主观性强，奖励模型难以像数学题那样给出精准的绝对分值。

2、信号淹没：随着策略模型能力提升，生成的回答质量普遍提高（例如都在 0.8-0.9 分之间）。此时，细微的质量差异远小于评分噪声，导致真实优势信号被掩盖。模型不仅无法继续优化，甚至可能因错误梯度而退化。
当所有方案“看起来都差不多好”，奖励机制就失去了方向。在高德，用户的真实需求往往充满人味：“外滩附近有江景露台、适合约会的酒吧，别太吵。”、“我想来条不累、少排队、又能拍照的路线。”......

这些查询意图模糊、约束多元、结果多样，正是这种复杂性，让传统 RL 的“打分机制”彻底失效。ArenaRL 通过 “相对比较”替代“绝对打分”，构建了一个持续进化的智能体竞技场，让优化信号始终清晰、可追踪。

ArenaRL 让智能体针对同一指令生成一组候选方案，构建一个微型“竞技场”。系统不再问“这条轨迹得几分？”，而是问“哪一条更合理、更符合用户意图？”
这种成对比较将奖励建模重构为组内相对排序问题，并通过分位奖励映射将离散排名转化为归一化优势信号。相比绝对分数，相对排序天然更能抵抗噪声，敏锐捕捉高质量轨迹间的细微差异，有效规避了训练后期的判别崩溃。
为了寻找效率与准确率的最佳平衡点，我们在论文中系统性地对比了多种竞技拓扑，实验数据（基于 Open-Travel 基准）如下表所示：

全量循环赛（Round-Robin）：让所有候选方案两两对决。这是评估的理想基准，但O(N^2)指数级的计算复杂度使其无法应用于大规模在线训练。
瑞士轮（Swiss System）与双败淘汰（Double-Elimination）：这类赛制虽比全量循环快，但仍存在局限：瑞士轮复杂度较高（O(N \log N)）；而双败淘汰虽接近线性复杂度，但在缺乏高质量种子预排序时，容易受随机性影响，排序保真度不足。
基于锚点的排序（Anchor-Based Ranking）：虽然也将复杂度降低至O(N)，但它仅将所有候选方案与一个固定的基准（Anchor）进行单点比较。这种方式缺乏候选方案之间的直接博弈，难以分辨高质量方案之间的细微优劣，即论文所述的分辨率缺失（Loss of Resolution），导致排序分辨率受限。
针对上述痛点，ArenaRL 最终确立了“种子单败淘汰赛”架构：
锚点预排序：引入贪婪解码生成的基准轨迹作为质量锚点，对候选样本进行快速初筛预排序，确立种子顺位。这有效防止了高质量样本在早期轮次中意外撞车。
线性淘汰：基于种子顺位进行二叉树式的单败淘汰赛。

实验证明，该机制在将计算复杂度严格控制在O(N)线性水平的同时，其优势估计准确率能够高度逼近全量循环赛，实现了训练效率与效果的最佳平衡。
开放域智能体的优劣不仅取决于最终答案，更取决于推理规划的过程。ArenaRL 引入了过程感知的评估机制，不仅对比最终结果的质量，更深入审视思维链（CoT）的逻辑严密性以及工具调用的精准度。

同时，为了消除大模型作为裁判时的位置偏见，我们采用了双向评分协议，确保每一场对决的评估结果都是公正且细粒度的。
为填补开放域智能体训练与评测数据的空白，我们构建并开源了 Open-Travel 与 Open-DeepResearch 两大基准，并开源了完整的 RL 训练集与测试集。
同时，我们开源了轻量级训练框架 qqr：

技术架构：基于 slime 开发，我们将 ArenaRL 的核心算法与 MCP (Model Context Protocol) 协议进行了深度适配。

即插即用：利用 MCP 协议，实现了 LLM 推理与训练环境的解耦。开发者可以轻松接入本地或远程工具作为环境，快速验证对比式 RL 方法，构建属于自己的智能体进化流程。
为了全面评估 ArenaRL 的效果，我们在Open-Travel（复杂出行规划）、Open-DeepResearch（深度信息检索）以及通用写作三大类任务上进行了系统评测。
核心发现：

1、复杂规划任务能力飞跃 (Open-Travel)：在包含模糊意图与多维时空约束的出行规划任务中，ArenaRL 相比 SFT 基线及传统 RL 方法实现了显著的性能提升，表明锦标赛机制能有效激励模型跳出局部最优，探索更优的规划策略。

2、长链路任务表现突出 (Open-DeepResearch)：面对长文本研报任务，传统 RL 方法容易因长度偏差导致生成不可用。ArenaRL 将有效生成率显著提升，改善了长文本任务中的指令遵循难题，大幅提升了生成结果的可用性。

3、强大的任务泛化能力：在三大通用写作榜单上，ArenaRL 同样表现优异，证明该方法在非工具调用型的通用生成任务上也具备良好的泛化能力。
ArenaRL 不仅在学术基准上领先，更在高德地图真实业务场景中完成落地验证。

在规则明确、结果精准性要求极高的 POI 搜索场景中，ArenaRL 展现了对刚性约束的出色适应能力。这一结果证明了，即使在规则确定的场景下，锦标赛机制也能敏锐捕捉高质量结果之间的细微优劣，从而推动模型性能突破瓶颈。
面对真实场景中的复杂模糊需求，ArenaRL 训练的模型展现出了更强的逻辑自洽性与多约束权衡能力，在时间、成本、用户偏好等多重维度间找到更优平衡点，显著提升了复杂长尾场景的用户体验。

我从上海徐汇出发，周末想找一条人少有遮阴可推婴儿车的城市绿道，途中顺路找一家低糖面包店买点心，再去一家可以预约包间的本帮菜馆，整段路线希望尽量不走台阶，傍晚前回到地铁站。

实际应用效果点击下方视频链接查看：
https://cloud.video.taobao.com/vod/3UMDntXOCFdAXgtgczXJXW4UbyfqLAnYZ4P05dY-Cuw.mp4

我们希望 ArenaRL 能为大家提供一套切实可用、可复现、可扩展的开放域智能体进化方案。让 AI 在没有标准答案的真实世界里，依然能持续学习、不断逼近更优解。

当AI面对“说不清”的需求：如何实现更优解？

通义大模型

热门文章

最新文章

相关电子书