通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

 00.前言

近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

 

image.gif 编辑

GUI-Owl不仅具备精准的界面理解、复杂任务规划与细粒度动作执行能力,更实现了在多智能体框架中灵活扮演多种角色——包括规划者、执行者、反思者与记录者,真正实现“能看、会想、善协作”的智能体闭环。

 

image.gif 编辑

目前,GUI-Owl的完整技术方案、训练数据与模型权重已全面开源,配套的异步强化学习框架与轨迹爬取系统也同步开放。

 

Github: https://github.com/X-PLUG/MobileAgent

论文: https://arxiv.org/abs/2508.15144

 

模型下载:

GUI-Owl-32B

https://modelscope.cn/models/iic/GUI-Owl-32B

 

GUI-Owl-7B

https://modelscope.cn/models/iic/GUI-Owl-7B

01.交互能力展示

📎0bc3x4assaab44akpyn63rufdp6dfg7qckia.f10002.mp4

02.模型构建方式

GUI-Owl基础模型,源于三大核心能力的系统性构建:精准定位、复杂规划、动作因果理解。

一、精准界面元素定位:让AI“指哪打哪”

为实现像素级理解,团队构建了三类高质量接地(grounding)数据:

  • 开源数据集整合融合多个公开GUI数据集,覆盖多样界面场景;
  • 无障碍树合成:提取移动端/桌面端UI元素的边界框与功能语义,结合Qwen2.5-VL生成视觉-语义对齐描述;
  • PC截图密集定位:通过Google Images爬取主流应用界面,利用SAM模型分割图像区域,再由大模型完成细粒度元素标注。

 

所有标注结果与Omniparser V2检测结果比对,确保数据质量。原始指令经Qwen2.5-Max重写为自然任务语言,提升泛化能力。

 

image.gif 编辑

二、复杂任务规划:教会AI“先想后做”

面对跨应用、长周期任务,GUI-Owl通过两种方式构建规划能力:

  • 从历史轨迹提炼经验将成功操作轨迹转化为结构化“任务执行手册”,训练模型掌握任务流;
  • 从大模型蒸馏知识:使用Qwen3-235B生成复杂任务计划(如“在微博搜索某热点并截图发朋友圈”),筛选清洗后形成高质量规划数据集。

三、动作语义理解:掌握“操作如何改变界面”

团队构建了前后截图对+动作标签的双层级数据体系:

  • 第一层:模型根据界面变化反推操作类型(点击、滑动、输入)及参数(坐标、文本);
  • 第二层:判断操作描述与实际变化是否语义一致(如“点击登录”后是否跳转主页)。

这套机制让GUI-Owl建立起“视觉差异→用户行为”的强因果推理能力。

03.强化学习进阶:越用越强的自动化智能体

 

image.gif 编辑

为了突破监督学习的性能天花板,MobileAgent团队引入轨迹级别强化学习,团队构建了一套全异步、解耦式RL训练基础设施:

  • Rollout与策略更新解耦:支持同步策略采样与异步off-policy推理,大幅提升训练吞吐;
  • 高性能推理集群部署:rollout服务运行在H20等高性能GPU上,显著提升长序列任务处理效率;
  • 统一多任务接口:所有任务通过插件化接入,支持步骤级、轨迹级、智能体级信息传递,降低环境耦合成本。

此外,他们提出了TRPO方法,使得模型在动态环境中实现稳定涨点。

实验证明,该框架在真实GUI环境中带来高达8个点的性能提升,甚至超越32B级别SoTA模型。

 

image.gif 编辑

04.多智能体协同:MobileAgent-V3,让AI组队干活

 

image.gif 编辑

面对复杂任务,单模型往往力不从心。为此,MobileAgent团队推出全新多智能体框架 MobileAgent-V3,构建四位“Agent”协同作战体系:

🎯 Manager Agent

接收用户指令后,调用外部知识库KRAG,将模糊任务拆解为有序子目标。执行中持续接收反馈,动态调整计划、修正错误、重排优先级。

🛠️ Worker Agent

根据当前界面状态选择最优动作,输出包含推理过程、操作指令与意图说明的完整行动元组,确保每一步“有据可依”。

🔍 Reflector Agent

每步操作后,对比预期与实际界面变化,判断成功或失败,并生成归因分析,如:“未跳转主页,可能因按钮被遮挡”。

📚 Notetaker Agent

仅在任务成功时触发,自动提取验证码、登录凭证、订单号等关键信息,存入长期记忆,避免重复操作。

在真实环境测试中,MobileAgent-V3相较单模型方案,任务成功率提升7~8%,尤其在跨应用、多跳任务中表现突出。

05.未来展望

GUI-Owl与MobileAgent-V3的开源,标志着通用图形界面智能体进入新阶段。它不再是一个“固定流程”的自动化脚本,而是一个具备基础知识、推理能力与协作机制的“多面手AI”。

 

其技术路径——“GUI知识构建 + 强化学习优化 + 多智能体协同”——为未来智能体发展提供了清晰范式。

 

未来,这一框架可广泛应用于:

  • 自动化测试与运维
  • 残障人士辅助操作
  • 企业流程自动化(RPA升级)
  • 教育、政务等低代码场景

期待开源社区基于GUI-Owl,共同探索更多“让AI替人类点手机、操作电脑”的可能性。

06.直播预告

为了让大家更进一步了解MobileAgent-v3,魔搭社区《AI模型社》栏目邀请到项目核心作者带来技术解读,欢迎预约关注👇

 

🕦直播时间:

9月10日(星期三)20:00

 

📄直播主题:

通义Mobile-Agent: 多模态、多端GUI智能体

 

点击链接, 即可跳转模型链接~

https://modelscope.cn/search?search=GUI-Owl

目录
相关文章
|
5月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
4月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
613 0
|
4月前
|
传感器 边缘计算 人工智能
2025大模型应用平台选型指南:从个人助手到企业级智能体,5大平台场景化拆解
本文深度评测五大主流大模型平台,结合金融、医疗、制造实战案例,解析Open WebUI、Dify、Ragflow、FastGPT与n8n的定位与优势,提供选型决策树与混合架构实例,助你精准匹配业务需求,避开“全能平台”陷阱,实现高效智能化落地。
|
4月前
|
存储 缓存 安全
手机缓存清除工具和电脑缓存清除工具有什么区别?
手机缓存清除工具和电脑缓存清除工具有什么区别?
302 94
|
2月前
|
存储 人工智能 搜索推荐
拔俗AI大模型教学平台:开启智能教育新时代
在AI与教育深度融合背景下,本文基于阿里云技术构建大模型教学平台,破解个性化不足、反馈滞后等难题。通过“大模型+知识图谱+场景应用”三层架构,实现智能答疑、精准学情分析与个性化学习路径推荐,助力教学质量与效率双提升,推动教育智能化升级。
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
2月前
|
人工智能 运维 NoSQL
拔俗AI大模型知识管理平台:让技术团队的“隐性知识”不再沉睡
技术团队常困于知识“存得住却用不好”。AI大模型知识管理平台如同为团队知识装上“智能大脑”,打通文档、代码、日志等碎片信息,实现智能检索、自动归集、动态更新与安全共享。它让新人快速上手、老手高效排障,把散落的经验变成可复用的智慧。知识不再沉睡,经验永不流失。
|
3月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
619 3
|
网络协议 Android开发 数据安全/隐私保护
Android手机上使用Socks5全局代理-教程+软件
Android手机上使用Socks5全局代理-教程+软件
9526 2

热门文章

最新文章