OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体

简介: 蚂蚁集团推出Web智能体OpAgent,仅凭自然语言指令即可在真实网站(如亚马逊)自主完成搜索、识别、加购等复杂操作。其采用视觉驱动理解、在线强化学习与模块化协作架构,在WebArena基准达71.6%任务成功率,刷新SOTA。已开源OpAgent-32B-INT4量化模型,显著降低推理门槛。

近日,蚂蚁集团全模态代码算法团队研发的 Web 智能体—— OpAgent 正式亮相。无需预设脚本或人工干预,OpAgent 能够仅凭一条自然语言指令,在真实亚马逊网站上自主完成搜索、识别、加购等一系列复杂交互操作。

📎0b2e2qcmyaaeimamaqwkdzuvjvgdztkajtaa.f10002.mp4

目前,OpAgent 已登陆魔搭社区(ModelScope)创空间,并同步开源了 OpAgent-32B-INT4 量化模型,显著降低了推理门槛。

魔搭 OpAgent 在线体验空间:https://modelscope.cn/studios/codefuse-ai/OpAgent-32B-Q4-Demo

HuggingFace Demo:https://huggingface.co/spaces/exias/OpAgent

开源地址:

ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B
HuggingFace:https://huggingface.co/codefuse-ai/OpAgent-32B
GitHub:https://github.com/codefuse-ai/OpAgent
Technical Report: https://arxiv.org/pdf/2602.13559

核心特性

OpAgent 在权威 Web 智能体评测基准 WebArena 上以 71.6% 的任务成功率位列榜首。其核心竞争力源于一套系统性的技术路线:

  • 视觉驱动的理解能力模型不再过度依赖 HTML,而是通过网页截图直接理解 UI 元素的布局、空间关系及交互属性。
  • 在线强化学习(Online RL)通过在真实网页环境中的持续交互与试错,模型能够自主掌握动态环境下的稳定操作策略。
  • 模块化协作架构将复杂任务拆解为规划、执行、反思、总结四个维度,通过多角色协同显著提升了任务处理的鲁棒性。


技术架构:三阶演进策略

OpAgent 的成功并非依赖单一模型,而是通过以下三个核心步骤,实现了从基础交互到真实场景应用的跨越。

1. 基础能力构建(Multitask Pre-training)

团队将 Web Agent 的能力拆成三类核心原语,直接从网页截图中理解页面布局、交互元素和空间关系。

  • Planning理解当前页面该做什么,以及某个操作可能带来什么页面变化;
  • Acting决定当前应该执行点击、输入、滚动等哪类动作;
  • Grounding精确找到动作应该落在哪个 UI 元素上。

围绕这三类能力,OpAgent 整合了 Mind2Web、Aguvis、UGround 等数据集,并设计了基于有效样本数的任务加权策略,解决不同任务数据规模不平衡的问题,避免模型被“大数据集任务”主导。

OpAgent 基础训练阶段

2. 在线强化学习(Online Interaction)

为了应对网页环境的动态性(如页面刷新、隐藏逻辑等),OpAgent 搭建了一套面向 Web Agent 的在线交互基础设施,让模型能够在真实网站和 WebArena 环境中大规模执行任务、采样轨迹并持续优化。

OpAgent 在线 RL 训练流程

3. 模块化 Agent 协同

OpAgent 最终采用了一套模块化 Agent 架构,把任务拆成四个角色来协作完成。

  • Planner:负责宏观任务拆解。
  • Grounder:负责具体动作执行。
  • Reflector:实时反思执行效果,若发现错误则立即纠偏。
  • Summarizer:收束执行过程并输出最终结果。

通过反思与验证机制,OpAgent 能够在执行过程中及时纠偏,从而显著提升复杂任务的鲁棒性。


Planner、Grounder、Reflector 和 Summarizer 协同工作

实验结果

WebArena 基准测试中,经过在线 RL 优化的单模型(Qwen3-VL-32B-Thinking + RL-HybridReward-Zero)取得了 38.1% 的成功率(Pass@5),显著优于 27.4% 的原始基线。


而集成模块化架构后的完整版 OpAgent 最终以 71.6% 的成绩刷新了 SOTA 纪录。


未来展望

OpAgent 的开源为多模态智能体在真实环境中的自主交互提供了新的基准。研究团队表示,尽管目前已取得显著进展,但系统对复杂 Prompt 工程仍有一定的依赖。未来的研究将聚焦于提升单体模型的内在探索与自主学习能力,进一步降低系统复杂度,推动通用网页智能体(General Web Agent)的落地应用。

点击即可跳转模型链接

https://modelscope.cn/models/codefuse-ai/OpAgent-32B

目录
相关文章
|
14天前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
829 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
8天前
|
机器学习/深度学习 人工智能 监控
MiniMax M2.7开源: 模型开始迭代自己了!
MiniMax M2.7正式开源!作为M2系列新一代旗舰,首次实现“模型参与自我迭代”范式:自主驱动RL训练、优化Harness架构。软件工程(SWE-Pro 56.22%)、专业办公(GDPval-AA ELO 1495)、互动娱乐能力全面跃升,支持SGLang/vLLM/Transformers本地部署。
552 9
|
26天前
|
JSON API PHP
使用PHP对接美股股票市场API 实时数据、IPO和K线(Kline)的PHP对接方案
StockTV API 面向开发者,提供美股实时行情、历史K线(5分钟至1月)、IPO日历等数据,支持HTTP/WS双接入,全接口返回标准JSON,含纽交所(ex=1)与纳斯达克(ex=2)标识。(239字)
|
5天前
|
JavaScript 前端开发 安全
前端组件库——Naive UI知识点大全(一)
教程来源 https://hllft.cn/category/artificial-intelligence.html Naive UI是Vue 3 + TypeScript现代化UI库,由图森未来开源。主打轻量、高性能、零CSS导入、全组件Tree Shaking及类型安全主题系统,已获GitHub 1.5w+ Star,适合追求开发体验与性能的中后台项目。
|
13天前
|
人工智能 JSON Java
Spring AI Alibaba + MCP:调用MCP市场公开服务实操
本文详细讲解Spring Ai Alibaba调用MCP市场公开服务的全流程,以高德地图MCP服务为例,包含API-Key申请、客户端配置、代码实操,助力开发者快速掌握Spring Ai Alibaba与MCP服务对接技巧。
285 6
Spring AI Alibaba + MCP:调用MCP市场公开服务实操
|
1月前
|
人工智能 安全 前端开发
阿里开源 Team 版 OpenClaw,5分钟完成本地安装
HiClaw 是 OpenClaw 的升级版,通过引入 Manager Agent 架构和分布式设计,解决了 OpenClaw 在安全性、多任务协作、移动端体验、记忆管理等方面的核心痛点。
1946 60
阿里开源 Team 版 OpenClaw,5分钟完成本地安装

热门文章

最新文章