AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑

简介: AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
人类每天 使用数字设备的时间长达数十亿小时。 如果我们能够开发出协助完成一部分这些任务的智能体,就有可能进入智能体辅助的良性循环,然后根据人类对故障的反馈,改进智能体并使其获得新的能力。 DeepMind 在这一领域有了新的研究成果。


如果机器可以像人类一样使用计算机,则可以帮助我们完成日常任务。在这种情况下,我们也有可能利用大规模专家演示和人类对交互行为的判断,它们是推动人工智能最近取得成功的两个因素。

最近关于 3D 模仿世界中自然语言、代码生成和多模态交互行为的工作(2021 年 DeepMind 交互智能体团队)已经产生了具备卓越表达能力、上下文感知和丰富常识的模型。这项研究有力地证明了以下两种组件的力量:机器与人类之间一致的丰富、组合输出空间;为机器行为提供信息的大量人类数据和判断。

具备这两种组件但受到较少关注的一个领域是数字设备控制(digital device control),它包括使用数字设备来完成大量有用任务。由于几乎完全使用数字信息,该领域在数据采集和控制并行化方面具有很好的扩展性(与机器人或聚变反应堆相比)。该领域还将多样化、多模态输入与富有表达能力、可组合且兼容人类的可供性相结合。

近日,在 DeepMind 的新论文《A Data-driven Approach for Learning to Control Computers》,研究者重点探究了训练智能体像人一样进行键盘和鼠标的基本计算机控制。


论文地址:https://arxiv.org/pdf/2202.08137.pdf

DeepMind 对计算机控制进行初步调查采用的基准是 MiniWob++ 任务套件(一组具有挑战性的计算机控制问题),它包含一组执行点击、打字、填写表格和其他此类基本计算机交互任务的指令(下图 1 b)。MiniWob++ 进一步提供了以编程方式定义的奖励。这些任务是迈向更开放人机交互的第一步,其中人类使用自然语言指定任务并提供有关性能的后续判断。

研究者重点训练智能体来解决这些任务,使用的方法在原则上适用于任何在数字设备上执行的任务,并且具备符合预期的数据和计算扩展特性。因此,他们直接结合强化学习(RL)和行为克隆(BC)两种技术,其中行为克隆通过人类与智能体行动空间之间的对齐来辅助完成(也就是键盘和鼠标)。

具体地,研究者探究使用键盘和鼠标进行计算机控制,并通过自然语言指定对象。并且,他们没有专注于手工设计的课程和专门的行动空间,而是开发了一种基于强化学习的可扩展方法,并结合利用实际人机交互提供的行为先验。

这是 MiniWob(2016 年由 OpenAI 提出的一种与网站交互的强化学习智能体的基准,MiniWob++ 是它的扩展版本)构想中提出的一种组合,但当时并未发现可以生成高性能智能体。因此,之后的工作试图通过让智能体访问特定 DOM 的操作来提升性能,并通过受限的探索技术使用精心策划的指导来减少每个步骤中可用的行动数量。通过重新审视模仿与强化学习的简单可扩展组合,研究者发现实现高性能主要的缺失因素仅是用于行为克隆的人类轨迹数据集的大小。随着人类数据的增加,性能会可靠地提升,使用的数据集大小是以往研究中的 400 倍。

研究者在 MiniWob++ 基准测试中的所有任务上都实现了 SOTA 和人类平均水平,并找到了跨任务迁移的强有力证据。这些结果证明了训练机器使用计算机过程中统一的人机界面非常有用。总之,研究者结果展示了一种超越 MiniWob++ 基准测试能力以及像人类一样控制计算机的方案。

对于 DeepMind 的这一研究,网友大都惊呼「不可思议」。


方法

MiniWob++

MiniWob++ 是 Liu 等人在 2018 年提出的基于 web 浏览器的套件,是早期 MiniWob(Mini World of Bits)任务套件的扩展,而 MiniWoB 是一个用于与网站交互的强化学习基准,其可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。MiniWob++ 任务范围从简单的按钮点击到复杂的表单填写,例如,在给出特定指令时预订航班(图 1a)。

之前关于 MiniWob++ 的研究已经考虑了能够访问 DOM 特定动作的架构,从而允许智能体直接与 DOM 元素交互而无需鼠标或键盘导航到它。DeepMind 的研究者选择仅使用基于鼠标和键盘的操作,并进一步假设该接口将更好地迁移到计算机控制任务,而无需与紧凑的 DOM 进行交互。最后,MiniWob++ 任务需要单击或拖动操作,而这些操作无法通过基于 DOM 元素的操作来实现(参见图 1b 中的示例)。

与之前的 MiniWob++ 研究一样,DeepMind 的智能体可以访问由环境提供的文本字符串字典,该字典被输入到给定任务的输入字段中(参见附录图 9 示例)。

下图为运行 MiniWob++ 的计算机控制环境。人类和智能体都使用键盘和鼠标控制计算机,人类提供用于行为克隆的示范行为,智能体受过训练以模仿这种行为或表现出追求奖励的行为。人类和智能体尝试解决 MiniWob++ 任务套件,其中包括需要单击、键入、拖动、填写表格等。


环境接口

如果想要智能体像人类一样使用计算机,它们需要接口来传输和接收观察结果和动作。最初的 MiniWob++ 任务套件提供了一个基于 Selenium 的接口。DeepMind 决定实现一个可替代环境堆栈,旨在支持智能体可以在 web 浏览器中实现各种任务。该接口从安全性、特性和性能方面进行了优化 (图 1a)。

原来的 MiniWob++ 环境实现通过 Selenium 访问内部浏览器状态并发出控制命令。相反,DeepMind 的智能体直接与 Chrome DevTools 协议 (CDP) 交互,以检索浏览器内部信息。

智能体架构

DeepMind 发现没有必要基于专门的 DOM 处理架构,相反,受最近关于多模态架构的影响,DeepMind 应用了最小模态特定处理,其主要依靠多模态 transformer 来灵活处理相关信息,如图 2 所述。


感知。智能体接收视觉输入(165x220 RGB 像素)和语言输入(示例输入显示在附录图 9 中)。像素输入通过一系列四个 ResNet 块,具有 3×3 内核,strides 为 2、2、2、2,以及输出通道(32、128、256、512)。这产生了 14×11 的特征向量,DeepMind 将其展平为 154 个 token 列表。

三种类型的语言输入任务指令、DOM 和任务字段使用同一个模块处理:每个文本字符串被分成 token,每个 token 映射被到大小为 64 的嵌入。

策略:智能体策略由 4 个输出组成:动作类型、光标坐标、键盘键索引和任务字段索引。每个输出都由单个离散概率分布建模,除光标坐标外,光标坐标由两个离散分布建模。

动作类型是从一组 10 种可能的动作中选择的,其中包括一个无操作(表示无动作)、7 个鼠标动作(移动、单击、双击、按下、释放、上滚轮、下滚轮)和两个键盘动作(按键、发出文本)。

DeepMind 从 77 名人类参与者那里收集了超过 240 万个 104 MiniWob++ 任务演示,总计大约 6300 小时,并使用模仿学习和强化学习 (RL) 的简单混合来训练智能体。

实验结果

MiniWob++ 上的人类水平性能

由于大部分研究通常只解决了 MiniWob++ 任务的一个子集,因此该研究在每个单独的任务上采用已公开的最佳性能,然后将这些子任务的聚合性能与该研究提出的智能体进行比较。如下图 3 所示,该智能体大大超过了 SOTA 基准性能。


此外, 该智能体在 MiniWob++ 任务组件中实现了人类水平的平均性能。这种性能是通过结合 BC 和 RL 联合训练来实现的。


研究者发现,虽然该智能体的平均性能与人类相当,但有些任务人类的表现明显优于该智能体,如下图 4 所示。


任务迁移

研究者发现,与在每个任务上单独训练的智能体相比,在 MiniWob++ 的全部 104 个任务上训练一个智能体可以显著提升性能,如下图 5 所示。


扩展

如下图 7 所示,人类轨迹数据集(human trajectory dataset)的大小是影响智能体性能的关键因素。使用 1/1000 的数据集,大约相当于 6 小时的数据,会导致快速过拟合,并且与仅使用 RL 的性能相比没有显著提升。随着该研究将此基线的数据量增加到三个数量级直至完整数据集大小,智能体的性能得到了持续的提升。


此外,研究者还注意到,随着算法或架构的变化,在数据集大小上的性能可能会更高。

消融实验

该智能体使用像素和 DOM 信息,并且可以配置为支持一系列不同的操作。该研究进行了消融实验以了解各种架构选择的重要性。

该研究首先消融不同的智能体输入(图 8a)。当前的智能体配置强烈依赖 DOM 信息,如果删除此输入,性能会下降 75%。相反,视觉信息的输入对该智能体的影响不太显著。


如图 8b 所示,该研究移除了智能体使用环境给定的文本输入选项(任务字段)的能力。有趣的是,移除之后的智能体仍然能够解决涉及表单填写的任务,但它是通过 highlight 文本,并将其拖动到相关的文本框,以从人类轨迹中学会完成这个任务。值得注意的是,在原始 Selenium 版本的环境中智能体实现这种拖动操作并不简单。

图 8b 还展示了一个消融实验结果,其中智能体使用与特定 DOM 元素交互的替代动作。这意味着智能体无法解决涉及单击画布内特定位置、拖动或 highlight 文本的任务。

相关文章
|
6天前
|
机器学习/深度学习 数据采集 人工智能
【AI大模型】Transformers大模型库(十一):Trainer训练类
【AI大模型】Transformers大模型库(十一):Trainer训练类
17 0
|
5天前
|
机器学习/深度学习 人工智能
智能化转型问题之大模型AI的出现对现有智能技术体系的影响如何解决
智能化转型问题之大模型AI的出现对现有智能技术体系的影响如何解决
13 0
|
2天前
|
人工智能 自然语言处理 云计算
iOS迎来AI升级:揭秘Apple全新“智能”系统
iOS迎来AI升级:揭秘Apple全新“智能”系统
iOS迎来AI升级:揭秘Apple全新“智能”系统
|
6天前
|
人工智能 自然语言处理 文字识别
秒懂全文:盘点13个各具特色的AI智能阅读助手工具
在当今信息爆炸的时代,AI阅读工具正在革新我们的阅读方式,成为了提高效率、优化阅读体验的关键。这类AI阅读辅助工具,只需要上传文件或者输入链接,便可以直接以聊天对话的形式进行一键总结和智能问答,满足用户AI PDF 阅读、AI文档问答分析、AI音视频总结等多种实用需求,高效提炼信息要点精华,建立属于自己的AI知识管理和信息管理工作流。对此,根据阅读场景,精选了 13 个具有代表性、各具特点的高质量 AI 阅读助手助理。 具体如何选择,见文末总结。
31 1
秒懂全文:盘点13个各具特色的AI智能阅读助手工具
|
3天前
|
机器学习/深度学习 人工智能 负载均衡
【AI大模型】分布式训练:深入探索与实践优化
在人工智能的浩瀚宇宙中,AI大模型以其惊人的性能和广泛的应用前景,正引领着技术创新的浪潮。然而,随着模型参数的指数级增长,传统的单机训练方式已难以满足需求。分布式训练作为应对这一挑战的关键技术,正逐渐成为AI研发中的标配。
22 5
|
6天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:AI在IT管理中的应用与挑战
当AI遇上IT运维,一场智能化的革命悄然开启。本文将带你一探究竟,看看AI如何改变着IT运维的面貌,提升效率的同时带来哪些前所未有的挑战。从自动化故障检测到预测性维护,再到安全防护的升级,我们将一步步揭开智能运维的神秘面纱。
18 4
|
5天前
|
存储 人工智能 数据管理
"AI大改造,让NAS焕发新生!智能分类、秒速检索、隐私守护、故障先知……你的数据存储神器全面升级,告别传统,拥抱未来智能NAS新纪元!"
【8月更文挑战第14天】大数据时代催生了对高效数据管理的需求,传统NAS面临挑战。AI技术的应用为NAS带来智能数据分类、内容分析检索、安全防护及预测性维护等功能。通过示例代码展示了AI如何简化数据管理、提升用户体验、保障数据安全及提高系统稳定性。集成AI的NAS正引领数据存储新时代。
18 3
|
4天前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
3天前
|
人工智能 自然语言处理 供应链
想拥抱新智能?不妨看看这家高速增长企业的AI创新实践
想拥抱新智能?不妨看看这家高速增长企业的AI创新实践
|
5天前
|
人工智能 数据挖掘 知识图谱
预训练模型STAR问题之AI团队探索智能对话中的问题如何解决
预训练模型STAR问题之AI团队探索智能对话中的问题如何解决