让AI像人类一样操作手机,华为也做出来了

简介: 华为诺亚方舟实验室研发的LiMAC系统,通过轻量级Transformer网络和微调的视觉-语言模型,实现了高效、准确的Android应用交互与控制。该系统在多个公开数据集上展现出卓越性能,提升了任务执行速度与准确性,同时具备良好的灵活性,但需大量训练数据支持。

在人工智能领域,让AI像人类一样操作手机是一个热门研究方向。最近,华为诺亚方舟实验室的研究人员在这一领域取得了突破性的进展。他们提出了一种名为“app agents”的新型移动手机控制架构,并开发了一种名为Lightweight Multi-modal App Control(LiMAC)的系统,该系统能够高效地与各种Android应用进行交互和控制。

LiMAC系统旨在解决移动手机控制中的两个主要问题:计算资源限制和自然语言理解。为了解决这些问题,LiMAC系统结合了一种轻量级的Transformer网络和一个经过微调的视觉-语言模型(VLM)。

首先,LiMAC系统使用一个轻量级的Transformer网络来处理用户的目标和手机的状态。这个网络被称为Action Transformer(AcT),它负责预测所需的动作类型,例如点击、输入文本或滚动。AcT网络使用预训练的嵌入来表示用户的目标、UI元素和可能的动作,以便有效地捕捉它们之间的关系。

其次,当需要自然语言理解时,例如输入文本或打开应用程序,LiMAC系统会调用一个经过微调的VLM来生成所需的文本内容。这个VLM被训练用于处理与应用程序控制相关的任务,并能够生成与用户目标和当前手机状态相一致的文本。

LiMAC系统具有以下几个优势:

  1. 高效性:LiMAC系统通过结合轻量级的Transformer网络和经过微调的VLM,实现了高效的计算和快速的处理速度。这使得LiMAC系统能够在移动设备上实时运行,而不会占用过多的计算资源。

  2. 准确性:LiMAC系统通过使用预训练的嵌入和经过微调的VLM,能够准确地预测所需的动作类型和生成所需的文本内容。这使得LiMAC系统能够在各种不同的应用程序和场景中实现高准确性的任务执行。

  3. 灵活性:LiMAC系统能够处理各种不同的动作类型,包括点击、输入文本和打开应用程序。这使得LiMAC系统能够适应各种不同的任务和用户需求。

为了评估LiMAC系统的性能,研究人员在两个公开的移动控制数据集上进行了实验,分别是AndroidControl和Android-in-the-Wild(AitW)。在这两个数据集上,LiMAC系统都表现出了优越的性能。

具体来说,LiMAC系统在AndroidControl数据集上的总体准确性比经过微调的VLM提高了19%,比基于GPT-4o的提示工程基线提高了42%。在AitW数据集上,LiMAC系统也表现出了类似的优越性能。

此外,LiMAC系统还具有显著的速度优势。在实验中,LiMAC系统的任务执行速度比基于GPT-4o的基线快了30倍,平均只需要3秒钟就可以完成一个任务。

然而,LiMAC系统也存在一些局限性。首先,LiMAC系统需要大量的训练数据来微调VLM,这可能限制了它的应用范围。其次,LiMAC系统的性能可能受到UI元素的准确性和可用性的影响,特别是在没有UI树或需要使用OCR系统来提取UI元素的情况下。

论文地址:https://arxiv.org/pdf/2410.17883

目录
相关文章
|
4月前
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
7904 73
|
3月前
|
人工智能 自然语言处理 机器人
“今日热点:AI像人类一样使用手机和电脑”,魔搭社区的开源项目已先行一步
今天,Claude发布了Computer Use的新功能,可以让AI像人一样使用电脑!
|
6月前
|
机器学习/深度学习 人工智能 供应链
智能进化:AI技术如何重塑智能手机体验
【7月更文第31天】随着人工智能(AI)技术的飞速发展,智能手机已经成为AI应用的重要平台之一。本文将探讨AI如何改善智能手机的用户体验,分析AI技术在手机硬件中的具体应用案例,并讨论AI技术如何帮助智能手机制造商应对市场挑战。
224 2
|
6月前
|
人工智能 边缘计算 自然语言处理
麦芒30全新绽放,中国电信勾勒出AI手机的新方向
2024年,AI手机迎来爆发,高通CEO称其为关键元年。各品牌如三星、华为、OPPO、小米及苹果纷纷涉足。中国电信发布首款AI手机麦芒30 5G,搭载星辰大模型,提供智能问答、语音转写等服务。市场预期AI手机销量将显著增长,但消费者是否买单仍取决于实际体验。麦芒30 5G针对年轻人提供AI集成的个性化体验,如多方言识别、智慧应用及AI增强的云盘服务。中国电信的运营商背景为其带来差异化优势,结合AI+战略和云网融合,有望重塑市场格局。生成式AI正改变行业,运营商的加入加剧竞争,智能手机市场或将迎来重大变革。
111 1
|
6月前
|
机器学习/深度学习 人工智能 视频直播
AI直播手机APP震撼发布!3大场景直播,60秒一键开播!
🎉 青否数字人AI直播APP发布!🚀 在抖音等平台60秒一键开播,简化直播流程。💡 3种AI直播模式,融合6大AIGC技术,助力新手轻松直播带货且避免违规。💪 AI主播、声音克隆,实时话术改写,智能互动与讲品同步,提升转化。📊 实景与视频直播结合,适应多种场景。🌐 独立部署,自定义版权,1年免费升级,专业售后支持。🚀 (直播: zhibo175) #青否数字人 #AI直播
AI直播手机APP震撼发布!3大场景直播,60秒一键开播!
|
7月前
|
人工智能 搜索推荐 机器人
随着AI控制你的智能手机,App时代的结束可能已经指日可待
随着AI控制你的智能手机,App时代的结束可能已经指日可待
|
8月前
|
人工智能 搜索推荐 机器人
AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景
AI Agent涌向移动终端,开启跨端跨应用业务连接新场景,手机智能体将成企业AIGC应用新标配。
176 0
|
8月前
|
人工智能 人机交互 vr&ar
手机厂商的开年大考:卷AI,还是卷MR?
无论是卷AI,还是卷MR,最后都需要面对的一个挑战在于,能否让用户想要丢掉手里平庸的产品,为新产品“挥霍一番”。
|
9天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
140 97
|
14天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营