OpAgent开源:登顶 WebArena,蚂蚁集团开源全模态网页智能体

简介: 蚂蚁集团推出Web智能体OpAgent,仅凭自然语言指令即可在真实网站(如亚马逊)自主完成搜索、识别、加购等复杂操作。其采用视觉驱动理解、在线强化学习与模块化协作架构,在WebArena基准达71.6%任务成功率,刷新SOTA。已开源OpAgent-32B-INT4量化模型,显著降低推理门槛。

近日,蚂蚁集团全模态代码算法团队研发的 Web 智能体—— OpAgent 正式亮相。无需预设脚本或人工干预,OpAgent 能够仅凭一条自然语言指令,在真实亚马逊网站上自主完成搜索、识别、加购等一系列复杂交互操作。

📎0b2e2qcmyaaeimamaqwkdzuvjvgdztkajtaa.f10002.mp4

目前,OpAgent 已登陆魔搭社区(ModelScope)创空间,并同步开源了 OpAgent-32B-INT4 量化模型,显著降低了推理门槛。

魔搭 OpAgent 在线体验空间:https://modelscope.cn/studios/codefuse-ai/OpAgent-32B-Q4-Demo

HuggingFace Demo:https://huggingface.co/spaces/exias/OpAgent

开源地址:

ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B
HuggingFace:https://huggingface.co/codefuse-ai/OpAgent-32B
GitHub:https://github.com/codefuse-ai/OpAgent
Technical Report: https://arxiv.org/pdf/2602.13559

核心特性

OpAgent 在权威 Web 智能体评测基准 WebArena 上以 71.6% 的任务成功率位列榜首。其核心竞争力源于一套系统性的技术路线:

  • 视觉驱动的理解能力模型不再过度依赖 HTML,而是通过网页截图直接理解 UI 元素的布局、空间关系及交互属性。
  • 在线强化学习(Online RL)通过在真实网页环境中的持续交互与试错,模型能够自主掌握动态环境下的稳定操作策略。
  • 模块化协作架构将复杂任务拆解为规划、执行、反思、总结四个维度,通过多角色协同显著提升了任务处理的鲁棒性。


技术架构:三阶演进策略

OpAgent 的成功并非依赖单一模型,而是通过以下三个核心步骤,实现了从基础交互到真实场景应用的跨越。

1. 基础能力构建(Multitask Pre-training)

团队将 Web Agent 的能力拆成三类核心原语,直接从网页截图中理解页面布局、交互元素和空间关系。

  • Planning理解当前页面该做什么,以及某个操作可能带来什么页面变化;
  • Acting决定当前应该执行点击、输入、滚动等哪类动作;
  • Grounding精确找到动作应该落在哪个 UI 元素上。

围绕这三类能力,OpAgent 整合了 Mind2Web、Aguvis、UGround 等数据集,并设计了基于有效样本数的任务加权策略,解决不同任务数据规模不平衡的问题,避免模型被“大数据集任务”主导。

OpAgent 基础训练阶段

2. 在线强化学习(Online Interaction)

为了应对网页环境的动态性(如页面刷新、隐藏逻辑等),OpAgent 搭建了一套面向 Web Agent 的在线交互基础设施,让模型能够在真实网站和 WebArena 环境中大规模执行任务、采样轨迹并持续优化。

OpAgent 在线 RL 训练流程

3. 模块化 Agent 协同

OpAgent 最终采用了一套模块化 Agent 架构,把任务拆成四个角色来协作完成。

  • Planner:负责宏观任务拆解。
  • Grounder:负责具体动作执行。
  • Reflector:实时反思执行效果,若发现错误则立即纠偏。
  • Summarizer:收束执行过程并输出最终结果。

通过反思与验证机制,OpAgent 能够在执行过程中及时纠偏,从而显著提升复杂任务的鲁棒性。


Planner、Grounder、Reflector 和 Summarizer 协同工作

实验结果

WebArena 基准测试中,经过在线 RL 优化的单模型(Qwen3-VL-32B-Thinking + RL-HybridReward-Zero)取得了 38.1% 的成功率(Pass@5),显著优于 27.4% 的原始基线。


而集成模块化架构后的完整版 OpAgent 最终以 71.6% 的成绩刷新了 SOTA 纪录。


未来展望

OpAgent 的开源为多模态智能体在真实环境中的自主交互提供了新的基准。研究团队表示,尽管目前已取得显著进展,但系统对复杂 Prompt 工程仍有一定的依赖。未来的研究将聚焦于提升单体模型的内在探索与自主学习能力,进一步降低系统复杂度,推动通用网页智能体(General Web Agent)的落地应用。

点击即可跳转模型链接

https://modelscope.cn/models/codefuse-ai/OpAgent-32B

目录
相关文章
|
6天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4357 17
|
17天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
16646 138
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
4819 8
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
7天前
|
人工智能 自然语言处理 数据挖掘
零基础30分钟搞定 Claude Code,这一步90%的人直接跳过了
本文直击Claude Code使用痛点,提供零基础30分钟上手指南:强调必须配置“工作上下文”(about-me.md+anti-ai-style.md)、采用Cowork/Code模式、建立标准文件结构、用提问式提示词驱动AI理解→规划→执行。附可复制模板与真实项目启动法,助你将Claude从聊天工具升级为高效执行系统。
|
6天前
|
人工智能 定位技术
Claude Code源码泄露:8大隐藏功能曝光
2026年3月,Anthropic因配置失误致Claude Code超51万行源码泄露,意外促成“被动开源”。代码中藏有8大未发布功能,揭示其向“超级智能体”演进的完整蓝图,引发AI编程领域震动。(239字)
2461 9

热门文章

最新文章