新Siri解锁万能Agent?魔搭开源移动端框架Mobile-Agent-v2抢先体验!

简介: 在刚结束的苹果全球开发者大会WWAC上,Apple家族AI全家桶 「Apple Intelligence」亮相,库克宣布个人智能系统将应用于新版本的 iPhone、iPad 和 Mac 操作系统。

在刚结束的苹果全球开发者大会WWAC上,Apple家族AI全家桶 「Apple Intelligence」亮相,库克宣布个人智能系统将应用于新版本的 iPhone、iPad 和 Mac 操作系统。未来,新Siri将脱胎换骨,在Apple Intelligence的系统支撑下,拥有更丰富的语言理解能力、更灵活地日常任务处理能力。结合屏幕感知功能,新Siri可以让用户轻松执行与屏幕上的信息相关操作,比如把聊天信息中收到的地址自动添加到朋友的通讯录里。由此,Siri 可以在应用程序中或跨应用程序执行数百项新操作,此次更新依赖于苹果今年四月份低调发布的一项工作——多模态大语言模型(MLLM) Ferret-UI,针对移动用户界面(UI)屏幕的理解进行优化,其具备引用、定位和推理能力。

类似的工作,在今年二月份,由阿里通义实验室提出的手机端智能体开源框架Mobile-Agent,即可实现一句指令输入,AI可以作为智能中枢,根据指令在手机上自动规划和操作各种APP。

image.gif

Mobile-Agent凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,已在Github获得了2,000个Star。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和探索。

近日,团队推出了新版本Mobile-Agent-v2,并列举了几大改进亮点:继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。目前,Mobile-Agent-v2的论文和代码已经发布,详情链接如下:

此外,ModelScope-Agent现已集成了Mobile-Agent-v2,详情请参考以下链接:https://github.com/modelscope/modelscope-agent。根据魔搭团队发布的演示视频,ModelScope-Agent拥有了使用Mobile-Agent-v2完成自动化打车的能力。用户只需输入目的地,ModelScope-Agent即能通过规划、决策和优化等过程,为用户完成叫车服务。

  612.1 -middle-original.gif

作者团队在社交媒体和Github发布了一系列展示Mobile-Agent-v2在手机上实操的视频。下面的视频中展示了一个跨应用操作的实例。首先,用户需要Mobile-Agent-v2查看聊天软件中的未读消息并执行相关任务。

Mobile-Agent-v2根据指令先打开了WhatsApp,查看了来自 "Ao Li" 的消息。消息内容要求在TikTok上找到一个与宠物相关的视频并分享。于是,Mobile-Agent-v2退出WhatsApp,进入TikTok开始浏览视频。在发现一个宠物猫的视频后,它点击分享按钮,将视频链接发送给了 "Ao Li"。

 

image.gif

以下是一个在社交媒体应用中的示例。用户要求Mobile-Agent-v2在X(推特)上搜索名人“马斯克”,然后关注他并评论他发布的一条帖子。由于社交媒体应用通常文字繁多,且UI布局复杂,这使得操作难度较大。

然而,从视频中可以看到,Mobile-Agent-v2精准地执行了每一步操作。尤其是在点击关注按钮后,推荐用户弹窗遮挡了原推文,但Mobile-Agent-v2通过上划屏幕,顺利完成了评论任务。

 


接下来是关于在同样复杂的长视频平台YouTube上操作的示例。从展示的视频可以看出,Mobile-Agent-v2在处理社交媒体和视频平台方面表现得非常出色。

 

image.gif

 

中文应用小红书和微信提供了先进的用户互动体验。例如,小红书允许用户不仅能搜索各种攻略,还可以随时发表评论。微信则方便用户进行高效的消息回复。Mobile-Agent-v2在这两大平台上具备强大的功能,它能够根据微信消息的内容自动生成回复,同时还能依据小红书帖子的具体内容发表相关评论。这样一来,用户就能享受到更加智能化的互动服务。

 

image.gif

 

Mobile-Agent-v2的技术实现将在下面进行介绍。在手机操作任务中,智能体通常需要通过多步骤来满足任务需求。每步操作时,必须跟踪当前任务的进展,即了解先前完成的要求,从而推断出依据用户指令进行的下一步操作。而操作历史记录,每一步包含的具体操作和对应的屏幕状态,都会被保存下来。然而,随着操作次数的增加,这些历史记载会不断变长。操作历史因图文交错的格式,使得任务进度的跟踪变得更加复杂。

正如下面的图例所展示的,经过7轮操作后,输入的操作历史序列长度已经超过了一万个token,图文交错的格式显著加大了智能体追踪任务进度的难度。

image.gif


Mobile-Agent-v2为了缓解任务处理中的困境,采用了规划智能体,如图所示,其角色是为操作智能体提供任务的进度。这一智能体将冗长的操作记录转换为简洁的纯文本,从而简化任务追踪。然而,这种简化方法导致了屏幕信息的丢失,使得决策智能体无法从历史屏幕中获取关键信息。

在一些任务中,智能体需要查看天气并撰写穿衣指南。生成指南时,智能体需要依赖历史屏幕中的天气信息。因应这一需求,Mobile-Agent-v2设计了记忆单元,由决策智能体负责更新与任务相关的信息。此外,由于决策智能体无法直接观察操作后的屏幕信息,系统还引入了反思智能体,用于监测并评估决策智能体操作前后的屏幕状态变化,确保操作的正确性。

image.gif


本文采用了一种动态评估方法,对五个系统内置应用和五个第三方应用进行了测试,测试范围涵盖了英文和非英文应用。在每个应用中,设计了两类指令:基础指令和进阶指令。另外,跨应用操作的指令也包括两条基础指令和两条进阶指令。

评估结果如表所示,详细展示了不同语言场景中的表现。从结果中可以看出,Mobile-Agent-v2在多项指标上,无论在英文还是非英文场景,都表现出了全面的提升。此外,通过人为增加操作知识(Mobile-Agent-v2 + Know.),性能得到了进一步的增强。

image.gif

image.gif


在本文中,作者通过消融实验结果(如下表所示)展示了去除规划智能体、决策智能体和记忆单元后的性能下降。

image.gif


随后,通过对操作失败任务的分析(如下图所示),作者发现Mobile-Agent在任务后期失败的操作占比较高,而Mobile-Agent-v2则显示出更均匀的失败分布,这表明Mobile-Agent-v2在处理长序列任务方面更为有效。

image.gif


最后,文章还展示了一个完整的操作流程和一个成功反思的实例,其中包括每个角色的输出。更多实例详见文章的最后部分。

image.gif


更多Mobile-Agent技术细节,欢迎预约6.19AI模型社直播专场详析

 

点击链接👇直达开源地址

https://github.com/X-PLUG/MobileAgent

相关文章
|
1月前
|
前端开发 API 决策智能
多智能体微调实践:α-UMi 开源
近年来,为了加强大型语言模型(Large-Language Models, LLM)实时信息处理、解决专业问题的能力,催生了工具调用智能体(Tool Integrated Agent)概念
|
28天前
|
人工智能 运维 自然语言处理
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
当整个行业的智慧都集中在一件事情上时,比起闭门造车,开源一定能带来更好的技术迭代和发展。CodeFuse 「编码挑战季」活动火热进行中,诚邀广大开发者们参与编码挑战
106 3
对话蚂蚁开源蒋炜:让 Agent 把运维人员从 24 小时的待命中解放出来
|
26天前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
89 4
|
28天前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
215 6
|
1月前
|
数据采集 人工智能 自然语言处理
Python实时查询股票API的FinanceAgent框架构建股票(美股/A股/港股)AI Agent
金融领域Finance AI Agents方面的工作,发现很多行业需求和用户输入的 query都是和查询股价/行情/指数/财报汇总/金融理财建议相关。如果需要准确的 金融实时数据就不能只依赖LLM 来生成了。常规的方案包括 RAG (包括调用API )再把对应数据和prompt 一起拼接送给大模型来做文本生成。稳定的一些商业机构的金融数据API基本都是收费的,如果是以科研和demo性质有一些开放爬虫API可以使用。这里主要介绍一下 FinanceAgent,github地址 https://github.com/AI-Hub-Admin/FinanceAgent
|
1月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
3月前
|
人工智能 自然语言处理 算法
可自主进化的Agent?首个端到端智能体符号化训练框架开源了
【8月更文挑战第13天】近年来,AI领域在构建能自主完成复杂任务的智能体方面取得重大突破。这些智能体通常基于大型语言模型,可通过学习适应环境。为简化设计流程,AIWaves Inc.提出智能体符号化学习框架,使智能体能在数据中心模式下自我优化,以推进通向通用人工智能的道路。该框架将智能体视作符号网络,利用提示、工具及其组合方式定义可学习的权重,并采用自然语言模拟反向传播和梯度下降等学习过程,指导智能体的自我改进。实验显示,此框架能有效促进智能体的自主进化。尽管如此,该框架仍面临高质量提示设计及计算资源需求高等挑战。论文详情参见:https://arxiv.org/pdf/2406.18532。
178 58
|
2月前
|
人工智能 安全 量子技术
大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文
agentUniverse有奖征文活动来啦!分享agentUniverse的实践经验、亦或是剖析市面上各路智能体技术理念、对比开源框架的洞见,都有机会获得大疆无人机!
大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文
|
2月前
|
弹性计算 自然语言处理 API
如何速成RAG+Agent框架大模型应用搭建
本文侧重于能力总结和实操搭建部分,从大模型应用的多个原子能力实现出发,到最终串联搭建一个RAG+Agent架构的大模型应用。
|
4月前
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
1873 9
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
下一篇
无影云桌面