AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑

简介: AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
人类每天 使用数字设备的时间长达数十亿小时。 如果我们能够开发出协助完成一部分这些任务的智能体,就有可能进入智能体辅助的良性循环,然后根据人类对故障的反馈,改进智能体并使其获得新的能力。 DeepMind 在这一领域有了新的研究成果。


如果机器可以像人类一样使用计算机,则可以帮助我们完成日常任务。在这种情况下,我们也有可能利用大规模专家演示和人类对交互行为的判断,它们是推动人工智能最近取得成功的两个因素。

最近关于 3D 模仿世界中自然语言、代码生成和多模态交互行为的工作(2021 年 DeepMind 交互智能体团队)已经产生了具备卓越表达能力、上下文感知和丰富常识的模型。这项研究有力地证明了以下两种组件的力量:机器与人类之间一致的丰富、组合输出空间;为机器行为提供信息的大量人类数据和判断。

具备这两种组件但受到较少关注的一个领域是数字设备控制(digital device control),它包括使用数字设备来完成大量有用任务。由于几乎完全使用数字信息,该领域在数据采集和控制并行化方面具有很好的扩展性(与机器人或聚变反应堆相比)。该领域还将多样化、多模态输入与富有表达能力、可组合且兼容人类的可供性相结合。

近日,在 DeepMind 的新论文《A Data-driven Approach for Learning to Control Computers》,研究者重点探究了训练智能体像人一样进行键盘和鼠标的基本计算机控制。


论文地址:https://arxiv.org/pdf/2202.08137.pdf

DeepMind 对计算机控制进行初步调查采用的基准是 MiniWob++ 任务套件(一组具有挑战性的计算机控制问题),它包含一组执行点击、打字、填写表格和其他此类基本计算机交互任务的指令(下图 1 b)。MiniWob++ 进一步提供了以编程方式定义的奖励。这些任务是迈向更开放人机交互的第一步,其中人类使用自然语言指定任务并提供有关性能的后续判断。

研究者重点训练智能体来解决这些任务,使用的方法在原则上适用于任何在数字设备上执行的任务,并且具备符合预期的数据和计算扩展特性。因此,他们直接结合强化学习(RL)和行为克隆(BC)两种技术,其中行为克隆通过人类与智能体行动空间之间的对齐来辅助完成(也就是键盘和鼠标)。

具体地,研究者探究使用键盘和鼠标进行计算机控制,并通过自然语言指定对象。并且,他们没有专注于手工设计的课程和专门的行动空间,而是开发了一种基于强化学习的可扩展方法,并结合利用实际人机交互提供的行为先验。

这是 MiniWob(2016 年由 OpenAI 提出的一种与网站交互的强化学习智能体的基准,MiniWob++ 是它的扩展版本)构想中提出的一种组合,但当时并未发现可以生成高性能智能体。因此,之后的工作试图通过让智能体访问特定 DOM 的操作来提升性能,并通过受限的探索技术使用精心策划的指导来减少每个步骤中可用的行动数量。通过重新审视模仿与强化学习的简单可扩展组合,研究者发现实现高性能主要的缺失因素仅是用于行为克隆的人类轨迹数据集的大小。随着人类数据的增加,性能会可靠地提升,使用的数据集大小是以往研究中的 400 倍。

研究者在 MiniWob++ 基准测试中的所有任务上都实现了 SOTA 和人类平均水平,并找到了跨任务迁移的强有力证据。这些结果证明了训练机器使用计算机过程中统一的人机界面非常有用。总之,研究者结果展示了一种超越 MiniWob++ 基准测试能力以及像人类一样控制计算机的方案。

对于 DeepMind 的这一研究,网友大都惊呼「不可思议」。


方法

MiniWob++

MiniWob++ 是 Liu 等人在 2018 年提出的基于 web 浏览器的套件,是早期 MiniWob(Mini World of Bits)任务套件的扩展,而 MiniWoB 是一个用于与网站交互的强化学习基准,其可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。MiniWob++ 任务范围从简单的按钮点击到复杂的表单填写,例如,在给出特定指令时预订航班(图 1a)。

之前关于 MiniWob++ 的研究已经考虑了能够访问 DOM 特定动作的架构,从而允许智能体直接与 DOM 元素交互而无需鼠标或键盘导航到它。DeepMind 的研究者选择仅使用基于鼠标和键盘的操作,并进一步假设该接口将更好地迁移到计算机控制任务,而无需与紧凑的 DOM 进行交互。最后,MiniWob++ 任务需要单击或拖动操作,而这些操作无法通过基于 DOM 元素的操作来实现(参见图 1b 中的示例)。

与之前的 MiniWob++ 研究一样,DeepMind 的智能体可以访问由环境提供的文本字符串字典,该字典被输入到给定任务的输入字段中(参见附录图 9 示例)。

下图为运行 MiniWob++ 的计算机控制环境。人类和智能体都使用键盘和鼠标控制计算机,人类提供用于行为克隆的示范行为,智能体受过训练以模仿这种行为或表现出追求奖励的行为。人类和智能体尝试解决 MiniWob++ 任务套件,其中包括需要单击、键入、拖动、填写表格等。


环境接口

如果想要智能体像人类一样使用计算机,它们需要接口来传输和接收观察结果和动作。最初的 MiniWob++ 任务套件提供了一个基于 Selenium 的接口。DeepMind 决定实现一个可替代环境堆栈,旨在支持智能体可以在 web 浏览器中实现各种任务。该接口从安全性、特性和性能方面进行了优化 (图 1a)。

原来的 MiniWob++ 环境实现通过 Selenium 访问内部浏览器状态并发出控制命令。相反,DeepMind 的智能体直接与 Chrome DevTools 协议 (CDP) 交互,以检索浏览器内部信息。

智能体架构

DeepMind 发现没有必要基于专门的 DOM 处理架构,相反,受最近关于多模态架构的影响,DeepMind 应用了最小模态特定处理,其主要依靠多模态 transformer 来灵活处理相关信息,如图 2 所述。


感知。智能体接收视觉输入(165x220 RGB 像素)和语言输入(示例输入显示在附录图 9 中)。像素输入通过一系列四个 ResNet 块,具有 3×3 内核,strides 为 2、2、2、2,以及输出通道(32、128、256、512)。这产生了 14×11 的特征向量,DeepMind 将其展平为 154 个 token 列表。

三种类型的语言输入任务指令、DOM 和任务字段使用同一个模块处理:每个文本字符串被分成 token,每个 token 映射被到大小为 64 的嵌入。

策略:智能体策略由 4 个输出组成:动作类型、光标坐标、键盘键索引和任务字段索引。每个输出都由单个离散概率分布建模,除光标坐标外,光标坐标由两个离散分布建模。

动作类型是从一组 10 种可能的动作中选择的,其中包括一个无操作(表示无动作)、7 个鼠标动作(移动、单击、双击、按下、释放、上滚轮、下滚轮)和两个键盘动作(按键、发出文本)。

DeepMind 从 77 名人类参与者那里收集了超过 240 万个 104 MiniWob++ 任务演示,总计大约 6300 小时,并使用模仿学习和强化学习 (RL) 的简单混合来训练智能体。

实验结果

MiniWob++ 上的人类水平性能

由于大部分研究通常只解决了 MiniWob++ 任务的一个子集,因此该研究在每个单独的任务上采用已公开的最佳性能,然后将这些子任务的聚合性能与该研究提出的智能体进行比较。如下图 3 所示,该智能体大大超过了 SOTA 基准性能。


此外, 该智能体在 MiniWob++ 任务组件中实现了人类水平的平均性能。这种性能是通过结合 BC 和 RL 联合训练来实现的。


研究者发现,虽然该智能体的平均性能与人类相当,但有些任务人类的表现明显优于该智能体,如下图 4 所示。


任务迁移

研究者发现,与在每个任务上单独训练的智能体相比,在 MiniWob++ 的全部 104 个任务上训练一个智能体可以显著提升性能,如下图 5 所示。


扩展

如下图 7 所示,人类轨迹数据集(human trajectory dataset)的大小是影响智能体性能的关键因素。使用 1/1000 的数据集,大约相当于 6 小时的数据,会导致快速过拟合,并且与仅使用 RL 的性能相比没有显著提升。随着该研究将此基线的数据量增加到三个数量级直至完整数据集大小,智能体的性能得到了持续的提升。


此外,研究者还注意到,随着算法或架构的变化,在数据集大小上的性能可能会更高。

消融实验

该智能体使用像素和 DOM 信息,并且可以配置为支持一系列不同的操作。该研究进行了消融实验以了解各种架构选择的重要性。

该研究首先消融不同的智能体输入(图 8a)。当前的智能体配置强烈依赖 DOM 信息,如果删除此输入,性能会下降 75%。相反,视觉信息的输入对该智能体的影响不太显著。


如图 8b 所示,该研究移除了智能体使用环境给定的文本输入选项(任务字段)的能力。有趣的是,移除之后的智能体仍然能够解决涉及表单填写的任务,但它是通过 highlight 文本,并将其拖动到相关的文本框,以从人类轨迹中学会完成这个任务。值得注意的是,在原始 Selenium 版本的环境中智能体实现这种拖动操作并不简单。

图 8b 还展示了一个消融实验结果,其中智能体使用与特定 DOM 元素交互的替代动作。这意味着智能体无法解决涉及单击画布内特定位置、拖动或 highlight 文本的任务。

相关文章
|
3天前
|
人工智能 自动驾驶 算法
智能时代的伦理困境:AI决策的道德边界
在人工智能技术飞速发展的今天,我们面临着前所未有的伦理挑战。本文探讨了AI决策中的道德边界问题,分析了技术发展与人类价值观之间的冲突,并提出了建立AI伦理框架的必要性和可能路径。通过深入剖析具体案例,揭示了AI技术在医疗、司法等领域的应用中所引发的道德争议,强调了在追求技术进步的同时,必须审慎考虑其对社会伦理的影响,确保科技发展服务于人类的福祉而非成为新的困扰源。
|
2天前
|
人工智能 自然语言处理 机器人
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
10 月 18 日, InfoQ《C 位面对面》栏目邀请到阿里云 CIO 及 aliyun.com 负责人蒋林泉(花名:雁杨),就 AI 时代企业 CIO 的角色转变、企业智能化转型路径、AI 落地实践与人才培养等主题展开了讨论。
149 20
对话阿里云 CIO 蒋林泉:AI 时代,企业如何做好智能化系统建设?
|
1天前
|
人工智能
1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
1024 云上见 AI大模型助力客户对话分析 2000个智能台灯等你来领
13 3
|
3天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的挑战与机遇###
本文探讨了人工智能(AI)技术在IT运维领域的应用,重点分析了AI如何提升运维效率、减少故障恢复时间,并预测未来发展趋势。通过具体案例展示了AI在实际运维中的应用效果,同时指出当前面临的挑战和解决方案,为读者提供一个全面了解智能化运维的视角。 ###
|
4天前
|
人工智能 弹性计算
|
2天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
12天前
|
机器学习/深度学习 人工智能 算法
打造你的超级Agent智能体——在虚拟迷宫中智斗未知,解锁AI进化之谜的惊心动魄之旅!
【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战,通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境,并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素,适合初学者理解Agent概念及其实现方法。
46 9
|
6天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
355 0
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
9天前
|
人工智能 算法 决策智能
面向软件工程的AI智能体最新进展,复旦、南洋理工、UIUC联合发布全面综述
【10月更文挑战第9天】近年来,基于大型语言模型(LLM)的智能体在软件工程领域展现出显著成效。复旦大学、南洋理工大学和伊利诺伊大学厄巴纳-香槟分校的研究人员联合发布综述,分析了106篇论文,探讨了这些智能体在需求工程、代码生成、静态代码检查、测试、调试及端到端软件开发中的应用。尽管表现出色,但这些智能体仍面临复杂性、性能瓶颈和人机协作等挑战。
22 1
|
10天前
|
人工智能 搜索推荐 机器人
挑战未来职场:亲手打造你的AI面试官——基于Agents的模拟面试机器人究竟有多智能?
【10月更文挑战第7天】基于Agent技术,本项目构建了一个AI模拟面试机器人,旨在帮助求职者提升面试表现。通过Python、LangChain和Hugging Face的transformers库,实现了自动提问、即时反馈等功能,提供灵活、个性化的模拟面试体验。相比传统方法,AI模拟面试机器人不受时间和地点限制,能够实时提供反馈,帮助求职者更好地准备面试。
16 2