让AI像人类一样操作手机,华为也做出来了

简介: 华为诺亚方舟实验室研发的LiMAC系统,通过轻量级Transformer网络和微调的视觉-语言模型,实现了高效、准确的Android应用交互与控制。该系统在多个公开数据集上展现出卓越性能,提升了任务执行速度与准确性,同时具备良好的灵活性,但需大量训练数据支持。

在人工智能领域,让AI像人类一样操作手机是一个热门研究方向。最近,华为诺亚方舟实验室的研究人员在这一领域取得了突破性的进展。他们提出了一种名为“app agents”的新型移动手机控制架构,并开发了一种名为Lightweight Multi-modal App Control(LiMAC)的系统,该系统能够高效地与各种Android应用进行交互和控制。

LiMAC系统旨在解决移动手机控制中的两个主要问题:计算资源限制和自然语言理解。为了解决这些问题,LiMAC系统结合了一种轻量级的Transformer网络和一个经过微调的视觉-语言模型(VLM)。

首先,LiMAC系统使用一个轻量级的Transformer网络来处理用户的目标和手机的状态。这个网络被称为Action Transformer(AcT),它负责预测所需的动作类型,例如点击、输入文本或滚动。AcT网络使用预训练的嵌入来表示用户的目标、UI元素和可能的动作,以便有效地捕捉它们之间的关系。

其次,当需要自然语言理解时,例如输入文本或打开应用程序,LiMAC系统会调用一个经过微调的VLM来生成所需的文本内容。这个VLM被训练用于处理与应用程序控制相关的任务,并能够生成与用户目标和当前手机状态相一致的文本。

LiMAC系统具有以下几个优势:

  1. 高效性:LiMAC系统通过结合轻量级的Transformer网络和经过微调的VLM,实现了高效的计算和快速的处理速度。这使得LiMAC系统能够在移动设备上实时运行,而不会占用过多的计算资源。

  2. 准确性:LiMAC系统通过使用预训练的嵌入和经过微调的VLM,能够准确地预测所需的动作类型和生成所需的文本内容。这使得LiMAC系统能够在各种不同的应用程序和场景中实现高准确性的任务执行。

  3. 灵活性:LiMAC系统能够处理各种不同的动作类型,包括点击、输入文本和打开应用程序。这使得LiMAC系统能够适应各种不同的任务和用户需求。

为了评估LiMAC系统的性能,研究人员在两个公开的移动控制数据集上进行了实验,分别是AndroidControl和Android-in-the-Wild(AitW)。在这两个数据集上,LiMAC系统都表现出了优越的性能。

具体来说,LiMAC系统在AndroidControl数据集上的总体准确性比经过微调的VLM提高了19%,比基于GPT-4o的提示工程基线提高了42%。在AitW数据集上,LiMAC系统也表现出了类似的优越性能。

此外,LiMAC系统还具有显著的速度优势。在实验中,LiMAC系统的任务执行速度比基于GPT-4o的基线快了30倍,平均只需要3秒钟就可以完成一个任务。

然而,LiMAC系统也存在一些局限性。首先,LiMAC系统需要大量的训练数据来微调VLM,这可能限制了它的应用范围。其次,LiMAC系统的性能可能受到UI元素的准确性和可用性的影响,特别是在没有UI树或需要使用OCR系统来提取UI元素的情况下。

论文地址:https://arxiv.org/pdf/2410.17883

目录
相关文章
|
7天前
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
15 5
|
4月前
|
人工智能 自然语言处理 搜索推荐
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代
|
7月前
|
人工智能 搜索推荐
【创意坊】未来对话:激进AI崛起,探索国内CHATGPT,开启超智对话体验!
【创意坊】未来对话:激进AI崛起,探索国内CHATGPT,开启超智对话体验!
83 0
|
机器学习/深度学习 人工智能 自然语言处理
AI歌手会成为发展的主流吗
AI歌手会成为发展的主流吗
171 0
|
机器学习/深度学习 人工智能 安全
AI语音将主导智能家居的未来?
不需要动手指,人工智能驱动的语音命令是智能家居的未来……
196 0
AI语音将主导智能家居的未来?
|
人工智能 调度 芯片
手机界转角遇到AI,OPPO靠什么赢得你的AI?
AI与过去的所有科技热词不同,其真正的价值在于商业化应用而不在技术本身。当它已经在重构世界,而你却还没发现应用场景的时候,很多人已经利用它超过了你。
145 0
手机界转角遇到AI,OPPO靠什么赢得你的AI?
|
新零售 人工智能 自然语言处理
响铃:AI加速器成巨头AI大战重要赛点,“圈林”之外还需“造林”
结合通过百度AI加速器实现发展突破的爱因互动、象文科技、译马网等案例,这里得出AI加速器必须具备的5种必要姿势。
159 0
响铃:AI加速器成巨头AI大战重要赛点,“圈林”之外还需“造林”
|
机器学习/深度学习 人工智能 算法
百度大脑发布13项AI硬件,这是要“铆足劲”发力端上AI?
百度大脑发布13项AI硬件,这是要“铆足劲”发力端上AI?
230 0
百度大脑发布13项AI硬件,这是要“铆足劲”发力端上AI?
|
机器学习/深度学习 人工智能 自然语言处理
百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相
「智能时代的操作系统」飞桨和自研 AI 处理器百度昆仑都已就位,产业智能化时代正在到来。
158 0
百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相
|
机器学习/深度学习 人工智能 自然语言处理
发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷
去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」。在会上,百度首次喊出了「All in AI」的口号。一年的时间过去了,今天在同样地点举行的第二届开发者大会上,李彦宏说道:去年我吹过一个牛,百度的 L4 级别无人驾驶车的量产,会在 2018 年的 7 月份。今天我要说的是,这个牛,马上就要实现了!而百度的最新战略、技术实力、以及生态发展也在这场大会上一一展现在我们的面前。
220 0
发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线,这是百度All in AI一年后的最新答卷