OpAgent:登顶WebArena的多模态Web GUI Agent

简介: 蚂蚁集团自研多模态Web智能体OpAgent,以71.6%的成功率登顶WebArena榜单。该方案通过层次化多任务微调构建基座,利用在线强化学习与混合奖励机制应对环境动态性,并结合模块化架构实现复杂任务的稳健执行与自我修正,刷新了Web智能体领域的SOTA纪录。

本文介绍了蚂蚁集团全模态代码算法团队自研的多模态 Web 智能体 OpAgent 。为应对真实 Web 环境的非结构化复杂性、时序不稳定性与交互隐式逻辑等挑战,我们提出了一套结合了多任务微调、在线强化学习与模块化协作的综合解决方案。 OpAgent 通过层次化多任务微调 ( MT-SFT ) 构建具备规划、行动和定位能力的视觉语言模型( VLM )基座;继而,在自建的在线交互环境中,利用创新的混合奖励机制进行在线强化学习( Online RL ) ,有效缓解了离线训练带来的分布偏移问题;最后,通过一个包含规划器、定位器、反思器和总结器的模块化智能体架构,实现对复杂长时程任务的鲁棒执行与自我修正。在权威 Web 智能体评测基准 WebArena 上,OpAgent 以 71.6% 的成功率于 2026 年 1 月取得了榜单第一的 SOTA 成绩。

GitHub:https://github.com/codefuse-ai/OpAgent

Hugging Face:https://huggingface.co/codefuse-ai/OpAgent

ModelScope: https://modelscope.cn/models/codefuse-ai/OpAgent-32B

Technical Report:https://github.com/codefuse-ai/OpAgent/blob/main/technical_report/OpAgent.pdf


一、背景与挑战

自主Web智能体旨在模拟人类在图形用户界面( GUI )上执行任务,其在自动化测试、数据采集、智能助理等领域具有广阔应用前景。然而,相较于 PC 或移动端环境,Web 环境呈现出独特的挑战:

  • 非结构化复杂性:网页的 DOM 树结构庞大且充满噪声,传统基于 HTML 或 DOM 解析的方法难以有效提取关键信息,容易被冗余内容干扰。
  • 时序不稳定性:网页内容是动态的,异步加载、实时更新和临时性元素(如弹窗)使得环境状态频繁变化。依赖静态离线数据集训练的模型在部署于真实动态环境时,会面临严重的分布偏移( Distributional Shift )问题。
  • 交互的隐式逻辑:许多 Web 交互(如悬停触发菜单)依赖实时的视觉反馈来确认操作的成功与否,这种闭环交互逻辑是离线学习范式无法有效建模的。

为应对上述挑战,我们设计并实现了 OpAgent 框架,其核心在于从依赖静态数据向与真实环境动态交互的范式转变。


二、OpAgent技术框架

OpAgent 的整体设计遵循一个分阶段的优化路径:首先通过多任务监督微调( MT-SFT )为模型注入基础的 Web 交互能力,然后通过在线强化学习( Online RL )在真实环境中对策略进行迭代优化,最终在推理阶段利用模块化智能体架构( Agentic Architecture )执行复杂任务。

image.png


2.1 层次化多任务微调 (Hierarchical Multi-Task Fine-tuning)

为构建一个强大的视觉语言模型( VLM )基座,我们首先摒弃了对脆弱的 HTML 文本解析的依赖,转而让模型直接从视觉截图( Screenshot )中感知和理解页面布局。我们将 Web 智能体的基础能力分解为三个维度:

  • 规划 ( Planning ):预测交互行为将导致的页面状态变迁。
  • 行动 ( Acting ):基于当前页面状态,决策下一步所需执行的操作。
  • 定位 ( Grounding ):在视觉上精确定位执行操作的UI元素坐标。

我们整合了包括 Mind2Web 、Aguvis 、UGround 在内的多个领域数据集,分别对上述三种能力进行训练。为解决不同数据集样本量级差异巨大(例如,百万级 vs. 千级)可能导致的梯度主导问题,我们引入了基于有效样本数 (Effective Number of Samples) 的加权策略,动态调整各任务在训练中的损失权重,确保模型在所有基础能力上得到均衡发展。

image.png

2.2 真实环境在线强化学习 ( Online Agentic RL in the Wild )

在线学习是解决分布偏移问题的关键。为此,我们构建了一套支持在真实 Web 环境中进行大规模在线强化学习的系统。

1. 四层RL基础设施:该系统分为决策层、执行层、基础设施层和环境层。VLM 代理在决策层生成动作,通过 Playwright 引擎在执行层被解析并分发至分布式浏览器集群,与环境层中的真实网站(包括自部署的 WebArena 环境)进行交互,最终将包含截图和 DOM 的观测数据反馈回决策层,形成一个完整的闭环交互与数据采集流程。

image.png

2. 混合奖励机制 ( Hybrid Reward Mechanism ):在没有真值( Ground-truth )轨迹的真实环境中,如何为智能体的探索行为提供有效监督信号至关重要。我们设计了一种混合奖励机制:

  • 基于规则的决策树 ( RDT ) 进行过程监督:为智能体的每一步提供即时反馈。该机制通过一系列规则判断动作的有效性,如是否产生页面视觉变化、是否点击在可交互元素上等,对无效或冗余的动作给予惩罚。
  • 基于 VLM 的 WebJudge 进行结果评估:在一条轨迹( trajectory )结束后,引入一个强大的 VLM 评估器 WebJudge ,从任务完成度、动作有效性和路径效率三个维度对整个轨迹进行综合评分,作为最终的稀疏奖励信号。

这种结合了稠密过程奖励和稀疏结果奖励的机制,为模型在真实环境中的策略优化提供了稳定且全面的监督。

image.png


2.3 Operator Agentic 模块化智能体架构

对于长时程、多步骤的复杂任务,单一模型的决策能力有限。我们因此设计了一个包含四个专业角色的模块化协作架构,以提升任务执行的鲁棒性和成功率。

模块

核心职责

主要输出

Planner  

规划器

任务分解与策略制定

语义化的步骤指令

Grounder 

定位器

将语义指令映射到UI坐标

标准化的工具调用(Tool Call)

Reflector 

反思器

验证动作效果,监控任务进展

反思信号与中间笔记

Summarizer

总结器

综合轨迹信息,生成最终答案

整合后的最终答案

该架构通过一个“规划-执行-反思”的迭代循环运作:Planner 根据全局目标和当前状态生成高层指令,Grounder 将其翻译为具体动作并执行,Reflector 在动作后评估状态变化并判断是否需要重新规划。这种机制实现了有效的错误检测与自我修正。

image.png


三、实验与结果

我们在多个基准上对 OpAgent 框架的各组件进行了充分评估。

单模型性能:

经过在线RL优化的单模型( Qwen3-VL-32B-Thinking + RL-HybridReward-Zero )在 WebArena 上取得了 38.1% 的成功率( Pass@5 ),显著超越了原始基线模型( 27.4% )以及其他采用类似 Test-Time Training  ( TTT ) 策略的方法。

image.png

Pass@K 分析:

对比 RL 优化前后的模型在不同 Pass@K 下的表现,可以看到随着尝试次数 K 的增加,RL优化后模型的性能优势愈发明显,Pass@5 的绝对提升达到 10.66% 。这表明在线强化学习显著增强了模型决策的鲁棒性。

image.png

Agentic Architecture 性能:

最终,集成了所有优化的 OpAgent 整体框架(使用 Gemini-3-Pro 作为部分模块后端,Qwen2.5-VL-MFT 作为 Grounder ),在 WebArena 上达到了 71.6% 的成功率,刷新了该基准的 SOTA 记录,并登顶排行榜。

image.png


四、总结与展望

本文介绍了蚂蚁全模态代码算法团队在 Web 智能体方向的最新研究成果 OpAgent 。通过在多任务微调、真实环境在线强化学习以及模块化智能体架构等方面的探索,我们显著提升了 Web 智能体在复杂动态环境中的任务执行能力,并在 WebArena 基准上取得了 SOTA 性能。

当前工作在实现高性能的同时,仍一定程度上依赖于精细的提示工程和多智能体的复杂编排。未来的研究方向将包括提升单模型内在的探索与泛化能力,以期减少对复杂框架的依赖,实现更加通用和高效的自主智能体。


关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。团队成立 3 年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文 20 余篇,两次获得蚂蚁技术最高奖 T-Star ,1 次蚂蚁集团最高奖 SuperMA ,我们研发的 CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待与你一起,探索AI的无限可能!🌟


如果您想更快地获取到最新信息,欢迎加入我们的微信群。







企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单
CodeFuse Embedding 家族最新成员 C2LLM 登顶 MTEB-Code 代码检索榜单,用注意力池化打破平均池化与 EOS 的僵局。
210 0
代码检索新王登基!CodeFuse开源C2LLM,用“注意力池化”刷新MTEB-Code榜单
|
1月前
|
缓存 人工智能 自然语言处理
Prompt 缓存的四种策略:从精确匹配到语义检索
本文详解Prompt缓存四大策略(精确匹配、规范化、语义相似、分层架构),直击LLM应用成本痛点——重复调用导致API费用飙升。代码示例+架构图,助你低成本提升命中率,降本30%–90%,延迟同步优化。
222 11
Prompt 缓存的四种策略:从精确匹配到语义检索
|
1月前
|
机器学习/深度学习 SQL 人工智能
别再群发拜年消息了!三步微调AI,让它学会你的“独家语气”
每逢春节,通用AI祝福总显生硬空洞。本文探讨如何通过微调(LoRA),将“人情世故”转化为结构化数据(称呼/关系/细节/风格等),让AI真正学会你的语气与记忆,生成有温度、带梗、专属的个性化祝福——技术不是替代表达,而是帮你把来不及说的情意,说得恰到好处。(239字)
310 16
别再群发拜年消息了!三步微调AI,让它学会你的“独家语气”
|
1月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
23692 154
|
2月前
|
人工智能 安全 API
Nacos 安全护栏:MCP、Agent、配置全维防护,重塑 AI Registry 安全边界
Nacos安全新标杆:精细鉴权、无感灰度、全量审计!
1539 84
|
1月前
|
监控 测试技术 持续交付
大模型测试怎么做?从模型评估、幻觉检测到 RAG 系统测试全指南
本指南系统讲解大模型测试全流程:涵盖多维度评估(私有评测集构建、指标选择)、幻觉检测(事实核查、一致性与对抗测试)、RAG分层验证(检索/生成/端到端),以及持续集成实践与避坑指南,助力团队落地可靠评估体系。
|
1月前
|
域名解析 人工智能 API
不用懂代码?DeepSeek 个人网站搭建,新手0基础一看就会!
通过阿里云计算巢“DeepSeek个人站点-快速部署”服务,用户可以轻松搭建专属DeepSeek网站。学生用户可领取300元代金券实现0成本部署,普通用户则可用99元/年的服务器。整个过程简单快捷,无需代码,最快5分钟完成部署,支持多种AI模型如DeepSeek、Qwen-max、Llama等。详细教程涵盖从购买到设置的每一步,确保用户顺利搭建并访问自己的AI网站。
238 9
|
1月前
|
存储 机器学习/深度学习 人工智能
大模型应用:不减性能只减负担:大模型稀疏化技术全景与实践.36
大模型稀疏化是通过参数剪枝(静态精简)与激活调度(动态休眠),使70%以上参数为零或不参与计算,在精度基本无损前提下,显著降低存储、算力与能耗。它是大模型轻量化落地的核心技术。
184 24
|
2月前
|
人工智能 自然语言处理 运维
阿里开源 Assistant Agent,助力企业快速构建答疑、诊断智能助手
一款快速构建智能客服、诊断助手、运维助手、AIOps 的开源框架。
1108 67
|
2月前
|
人工智能 运维 监控
进阶指南:BrowserUse + AgentRun Sandbox 最佳实践
本文将深入讲解 BrowserUse 框架集成、提供类 Manus Agent 的代码示例、Sandbox 高级生命周期管理、性能优化与生产部署策略。涵盖连接池设计、安全控制、可观测性建设及成本优化方案,助力构建高效、稳定、可扩展的 AI 浏览器自动化系统。
641 48

热门文章

最新文章