在人工智能领域,让AI像人类一样操作手机是一个热门研究方向。最近,华为诺亚方舟实验室的研究人员在这一领域取得了突破性的进展。他们提出了一种名为“app agents”的新型移动手机控制架构,并开发了一种名为Lightweight Multi-modal App Control(LiMAC)的系统,该系统能够高效地与各种Android应用进行交互和控制。
LiMAC系统旨在解决移动手机控制中的两个主要问题:计算资源限制和自然语言理解。为了解决这些问题,LiMAC系统结合了一种轻量级的Transformer网络和一个经过微调的视觉-语言模型(VLM)。
首先,LiMAC系统使用一个轻量级的Transformer网络来处理用户的目标和手机的状态。这个网络被称为Action Transformer(AcT),它负责预测所需的动作类型,例如点击、输入文本或滚动。AcT网络使用预训练的嵌入来表示用户的目标、UI元素和可能的动作,以便有效地捕捉它们之间的关系。
其次,当需要自然语言理解时,例如输入文本或打开应用程序,LiMAC系统会调用一个经过微调的VLM来生成所需的文本内容。这个VLM被训练用于处理与应用程序控制相关的任务,并能够生成与用户目标和当前手机状态相一致的文本。
LiMAC系统具有以下几个优势:
高效性:LiMAC系统通过结合轻量级的Transformer网络和经过微调的VLM,实现了高效的计算和快速的处理速度。这使得LiMAC系统能够在移动设备上实时运行,而不会占用过多的计算资源。
准确性:LiMAC系统通过使用预训练的嵌入和经过微调的VLM,能够准确地预测所需的动作类型和生成所需的文本内容。这使得LiMAC系统能够在各种不同的应用程序和场景中实现高准确性的任务执行。
灵活性:LiMAC系统能够处理各种不同的动作类型,包括点击、输入文本和打开应用程序。这使得LiMAC系统能够适应各种不同的任务和用户需求。
为了评估LiMAC系统的性能,研究人员在两个公开的移动控制数据集上进行了实验,分别是AndroidControl和Android-in-the-Wild(AitW)。在这两个数据集上,LiMAC系统都表现出了优越的性能。
具体来说,LiMAC系统在AndroidControl数据集上的总体准确性比经过微调的VLM提高了19%,比基于GPT-4o的提示工程基线提高了42%。在AitW数据集上,LiMAC系统也表现出了类似的优越性能。
此外,LiMAC系统还具有显著的速度优势。在实验中,LiMAC系统的任务执行速度比基于GPT-4o的基线快了30倍,平均只需要3秒钟就可以完成一个任务。
然而,LiMAC系统也存在一些局限性。首先,LiMAC系统需要大量的训练数据来微调VLM,这可能限制了它的应用范围。其次,LiMAC系统的性能可能受到UI元素的准确性和可用性的影响,特别是在没有UI树或需要使用OCR系统来提取UI元素的情况下。