Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers

简介: Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers

在自然语言处理、计算机视觉和二者的交叉领域中,通过训练大量与任务无关的数据集,建立大规模的通用模型来解决许多任务,已经成为主流方法。这些模型可以适应新的任务(例如翻译) ,利用不相关的数据(例如使用高资源语言来改进低资源语言的翻译) ,甚至可以通过将图像投影到语言空间来纳入新的模式。

这些方法的成功很大程度上来自于可扩展模型架构、大量未标注的任务无关数据以及高性能计算基础设施的不断改进。至关重要的是,标度律表明,规模带来的性能提升尚未达到饱和点。

在最近的一项工作中,谷歌研究院的成员们提出,类似的进展在强化学习领域是可能发生的,并且他们采取可扩展的方法的初步步骤,生成了表现优越的通才型智能体。与视觉和语言领域相反,强化学习通常倡导使用更小的模型,模型也通常用于解决单一任务,或在同一环境中的多个任务。重要的是,跨越多种环境的训练的研究数量并不多,很少有人研究横跨不同动力学、奖励、视觉效果和智能体实施方式的东西。


论文链接:https://arxiv.org/pdf/2205.15241.pdf

具体地说,研究者调研了是否可以从大量的专家和非专家经验中训练一个单一的模型(具有单一的一组参数)在多种环境中行动。他们在一组 41 个 Atari 游戏上进行训练,用来满足多样性方面的要求,并提出了一个问题:「模型能从玩很多视频游戏的过程中学到一些通用的东西吗?」

为了训练这个模型,研究者只使用了先前从 Agarwal et al. [1]中收集到的轨迹,但是交互式地评估了本研究的智能体。研究者表示,他们并不是在追求特定游戏智能体所能达到的精通程度或效率,因为这项研究仍处于早期阶段。相反,他们要探索的是,在语言和视觉领域观察到的相同趋势,是否也适用于大规模的通才型强化学习?

研究发现,在对离线专家数据集和非专家数据集进行训练之后,智能体可以在所有游戏中同时达到人类级别性能的 126%,如图 1 所示。此外,研究者还发现了与语言和视觉领域相似的趋势:用很少的数据快速适应从未见过的游戏(第 4.5 节) ,性能和模型大小之间的幂律关系(第 4.4 节) ,以及为更大的模型提供更快的训练进度。

值得注意的是,并非所有现有的多环境训练方法都有效。他们研究了几种方法,包括将问题处理为基于离线决策 Transformer 的序列建模 [14,34]、在线 RL [51]、离线时间差分方法[41]、对比表征[54] 和行为克隆[58]。

研究者发现,基于决策 Transformer 的模型在多环境下提供了最好的性能和扩展特性。然而,为了实现对专家和非专家轨迹的训练,有必要使用从语言建模引导生成技术来生成专家级别的动作,这与标准的决策 Transformer 有很大的不同。

实验

为了回答一系列假设提问,研究者进行了多项实验,如下:

不同的在线和离线方法在多博弈体制中的表现如何?

研究比较了多博弈机制和单游戏机制下不同在线和离线算法,发现单游戏专家模型仍然是最高效的。在多博弈通用模型中,多博弈决策 Transformer 模型最接近专家性能,多博弈在线 RL 与非 Transformer 模型排在第二位,而离线非 Transformer 模型很难获得好的表现。

可以注意到,多博弈在线 C51 DQN 中位数得分为 68% (附录 D) ,这与多博弈 Impala 中位数得分为 70% 的得分相似,这是根据 [20] 报告的结果计算得出的。

不同的方法如何与模型尺寸相比较?

在大型语言和视觉模型中,最低可实现的训练损失通常随着模型大小的增加而可预测地减少。Kaplan et al. [37]证明了一个语言模型的容量 (next-token 自回归生成模型的 NLP 术语) 与其性能之间的经验幂律关系(在对抗数据上的负对数似然)。这些趋势在许多数量级的模型尺寸中得到了验证,包括从几百万参数的模型到数千亿参数的模型。

研究者调查了交互式游戏中的表现是否存在类似的趋势(而不仅仅是训练损失),并显示类似的幂律性能趋势,如图 5(a)。多博弈决策 Transformer 的性能实现了两个数量级的增加,而其他方法要么饱和,要么性能增长缓慢得多。他们还发现,较大的模型训练更快,在观察相同数量的 token 后,能达到更高的游戏性能。附录 G 中进一步讨论了这些结果。

不同的方法转换到新游戏的效果如何?

尽管雅达利游戏是一项自然而且动机良好的任务,但是由于它与人类如何将知识转移到新游戏的相关性问题,对于快速适应新游戏的预训练还没有被广泛探讨。Nachum 和 Yang 针对 Atari 的大型离线数据和小型专家数据进行了预训练,并与基于互模拟的一系列状态表征学习目标进行了比较,但是他们的预训练和微调使用的是同一个游戏。相反,本文研究者感兴趣的是经过训练的智能体迁移到新游戏的能力。

图 6 展示了对抗游戏中的微调性能。带有 DT 目标的预训练在所有游戏中表现最好,所有预训练的方法都比从零开始的训练有效,这证实了本研究的假设,即针对其他游戏的预训练确实有助于智能体快速学习一项新游戏。CPC 和 BERT 的表现不如 DT,这表明仅仅学习状态表征不足以达到理想的迁移效果。虽然 ACL 为 BERT 增加了一个动作预测辅助损失,但效果不明显,这表明在离线数据上正确建模动作对于获得良好的传输性能非常重要。此外,研究者还发现微调性能会随着 DT 模型变大而提高,而 CQL 微调性能与模型大小并不一致(参见图 5b)。

多博弈决策 Transformer 是否改进了训练数据?

研究者想要评估的是,带有专家行动推理的决策 Transformer 是否能够超越最好的演示在训练中展现的能力。为了做到这一点,研究者看了表现 top 3 的决策 Transformer 模型的 rollout。他们使用了 top 3 的 rollout,而不是所有 rollout 的平均值,以更公平地比较最好的演示,而不是一个普通的专家演示。图 7 中展示了对比单个游戏的最佳演示得分提高的百分比,在一些比赛中,实现了训练数据的显著改善。

最佳行为推理是否改进了行为克隆?

图 8 展示了所有游戏得分的平均值和标准差。虽然行为克隆有时可能会产生高回报的 episode,但这种情况此时不太可能发生。研究者发现,在 41 个游戏中,有 31 个游戏的决策 Transformer 的性能优于行为克隆。

专家和非专家数据混合训练是否比仅专家训练更有益?

与从专家示范中学习相比,从包括一些专家数据但主要是非专家数据的大型多样化数据集中学习有助于学习和提高性能。为了验证这个假设,研究者根据 episodic returns 过滤了每个游戏的训练数据,并且只保留前 10% 的轨迹,以生成一个专家的数据集 (详情见附录 E)。他们使用了这个专家数据集来训练多博弈决策 Transformer(DT-40M) 和基于 Transformer 的行为克隆模型(BC-40M)。图 9 比较了这些模型训练的专家数据和 DT-40M 训练的所有数据。

使用 Transformer 架构有什么好处?

决策 Transformer 是一个 Upside-Down RL (UDRL)实现,它使用 Transformer 体系架构,并将 RL 视为序列建模问题。为了理解 Transformer 体系架构的好处,研究者将其与使用前馈、卷积 Impala 网络的 UDRL 实现进行比较。

图 10 展示了使用 Impala 架构的决策 Transformer 相对于 UDRL 的明显优势。在比较 UDRL (Impla)和 CQL (在评估的每个模型尺寸上使用相同的 Impla)时,可以观察到 UDRL (impla)优于 CQL。结果表明,本文方法的好处不仅来自于使用的网络架构,同时来自于 UDRL 公式。

尽管由于设计空间的因素,将 Transformer 与所有可能的卷积架构进行比较是不可行的,但研究者相信这些经验性的结果仍然显示了一个明显的趋势,对于 UDRL 和 Transformer 架构都是有益的。

相关文章
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
131 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
4月前
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
61 3
|
8月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
178 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
Web App开发 Linux Android开发
谷歌浏览器 模拟微信浏览器user-agent
1.F12    2.Elments—>Emulation Media: Other Network:Mozilla/5.0 (Linux; Android 4.4.4; HM NOTE 1LTEW Build/KTU84P) AppleWebKit/537.
1308 0
|
22天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
125 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
23天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
81 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
20天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
51 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
1月前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
84 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
2月前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
165 13
AI经营|多Agent择优生成商品标题
|
1月前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
46 7

热门文章

最新文章