Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers

简介: Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers

在自然语言处理、计算机视觉和二者的交叉领域中,通过训练大量与任务无关的数据集,建立大规模的通用模型来解决许多任务,已经成为主流方法。这些模型可以适应新的任务(例如翻译) ,利用不相关的数据(例如使用高资源语言来改进低资源语言的翻译) ,甚至可以通过将图像投影到语言空间来纳入新的模式。

这些方法的成功很大程度上来自于可扩展模型架构、大量未标注的任务无关数据以及高性能计算基础设施的不断改进。至关重要的是,标度律表明,规模带来的性能提升尚未达到饱和点。

在最近的一项工作中,谷歌研究院的成员们提出,类似的进展在强化学习领域是可能发生的,并且他们采取可扩展的方法的初步步骤,生成了表现优越的通才型智能体。与视觉和语言领域相反,强化学习通常倡导使用更小的模型,模型也通常用于解决单一任务,或在同一环境中的多个任务。重要的是,跨越多种环境的训练的研究数量并不多,很少有人研究横跨不同动力学、奖励、视觉效果和智能体实施方式的东西。


论文链接:https://arxiv.org/pdf/2205.15241.pdf

具体地说,研究者调研了是否可以从大量的专家和非专家经验中训练一个单一的模型(具有单一的一组参数)在多种环境中行动。他们在一组 41 个 Atari 游戏上进行训练,用来满足多样性方面的要求,并提出了一个问题:「模型能从玩很多视频游戏的过程中学到一些通用的东西吗?」

为了训练这个模型,研究者只使用了先前从 Agarwal et al. [1]中收集到的轨迹,但是交互式地评估了本研究的智能体。研究者表示,他们并不是在追求特定游戏智能体所能达到的精通程度或效率,因为这项研究仍处于早期阶段。相反,他们要探索的是,在语言和视觉领域观察到的相同趋势,是否也适用于大规模的通才型强化学习?

研究发现,在对离线专家数据集和非专家数据集进行训练之后,智能体可以在所有游戏中同时达到人类级别性能的 126%,如图 1 所示。此外,研究者还发现了与语言和视觉领域相似的趋势:用很少的数据快速适应从未见过的游戏(第 4.5 节) ,性能和模型大小之间的幂律关系(第 4.4 节) ,以及为更大的模型提供更快的训练进度。

值得注意的是,并非所有现有的多环境训练方法都有效。他们研究了几种方法,包括将问题处理为基于离线决策 Transformer 的序列建模 [14,34]、在线 RL [51]、离线时间差分方法[41]、对比表征[54] 和行为克隆[58]。

研究者发现,基于决策 Transformer 的模型在多环境下提供了最好的性能和扩展特性。然而,为了实现对专家和非专家轨迹的训练,有必要使用从语言建模引导生成技术来生成专家级别的动作,这与标准的决策 Transformer 有很大的不同。

实验

为了回答一系列假设提问,研究者进行了多项实验,如下:

不同的在线和离线方法在多博弈体制中的表现如何?

研究比较了多博弈机制和单游戏机制下不同在线和离线算法,发现单游戏专家模型仍然是最高效的。在多博弈通用模型中,多博弈决策 Transformer 模型最接近专家性能,多博弈在线 RL 与非 Transformer 模型排在第二位,而离线非 Transformer 模型很难获得好的表现。

可以注意到,多博弈在线 C51 DQN 中位数得分为 68% (附录 D) ,这与多博弈 Impala 中位数得分为 70% 的得分相似,这是根据 [20] 报告的结果计算得出的。

不同的方法如何与模型尺寸相比较?

在大型语言和视觉模型中,最低可实现的训练损失通常随着模型大小的增加而可预测地减少。Kaplan et al. [37]证明了一个语言模型的容量 (next-token 自回归生成模型的 NLP 术语) 与其性能之间的经验幂律关系(在对抗数据上的负对数似然)。这些趋势在许多数量级的模型尺寸中得到了验证,包括从几百万参数的模型到数千亿参数的模型。

研究者调查了交互式游戏中的表现是否存在类似的趋势(而不仅仅是训练损失),并显示类似的幂律性能趋势,如图 5(a)。多博弈决策 Transformer 的性能实现了两个数量级的增加,而其他方法要么饱和,要么性能增长缓慢得多。他们还发现,较大的模型训练更快,在观察相同数量的 token 后,能达到更高的游戏性能。附录 G 中进一步讨论了这些结果。

不同的方法转换到新游戏的效果如何?

尽管雅达利游戏是一项自然而且动机良好的任务,但是由于它与人类如何将知识转移到新游戏的相关性问题,对于快速适应新游戏的预训练还没有被广泛探讨。Nachum 和 Yang 针对 Atari 的大型离线数据和小型专家数据进行了预训练,并与基于互模拟的一系列状态表征学习目标进行了比较,但是他们的预训练和微调使用的是同一个游戏。相反,本文研究者感兴趣的是经过训练的智能体迁移到新游戏的能力。

图 6 展示了对抗游戏中的微调性能。带有 DT 目标的预训练在所有游戏中表现最好,所有预训练的方法都比从零开始的训练有效,这证实了本研究的假设,即针对其他游戏的预训练确实有助于智能体快速学习一项新游戏。CPC 和 BERT 的表现不如 DT,这表明仅仅学习状态表征不足以达到理想的迁移效果。虽然 ACL 为 BERT 增加了一个动作预测辅助损失,但效果不明显,这表明在离线数据上正确建模动作对于获得良好的传输性能非常重要。此外,研究者还发现微调性能会随着 DT 模型变大而提高,而 CQL 微调性能与模型大小并不一致(参见图 5b)。

多博弈决策 Transformer 是否改进了训练数据?

研究者想要评估的是,带有专家行动推理的决策 Transformer 是否能够超越最好的演示在训练中展现的能力。为了做到这一点,研究者看了表现 top 3 的决策 Transformer 模型的 rollout。他们使用了 top 3 的 rollout,而不是所有 rollout 的平均值,以更公平地比较最好的演示,而不是一个普通的专家演示。图 7 中展示了对比单个游戏的最佳演示得分提高的百分比,在一些比赛中,实现了训练数据的显著改善。

最佳行为推理是否改进了行为克隆?

图 8 展示了所有游戏得分的平均值和标准差。虽然行为克隆有时可能会产生高回报的 episode,但这种情况此时不太可能发生。研究者发现,在 41 个游戏中,有 31 个游戏的决策 Transformer 的性能优于行为克隆。

专家和非专家数据混合训练是否比仅专家训练更有益?

与从专家示范中学习相比,从包括一些专家数据但主要是非专家数据的大型多样化数据集中学习有助于学习和提高性能。为了验证这个假设,研究者根据 episodic returns 过滤了每个游戏的训练数据,并且只保留前 10% 的轨迹,以生成一个专家的数据集 (详情见附录 E)。他们使用了这个专家数据集来训练多博弈决策 Transformer(DT-40M) 和基于 Transformer 的行为克隆模型(BC-40M)。图 9 比较了这些模型训练的专家数据和 DT-40M 训练的所有数据。

使用 Transformer 架构有什么好处?

决策 Transformer 是一个 Upside-Down RL (UDRL)实现,它使用 Transformer 体系架构,并将 RL 视为序列建模问题。为了理解 Transformer 体系架构的好处,研究者将其与使用前馈、卷积 Impala 网络的 UDRL 实现进行比较。

图 10 展示了使用 Impala 架构的决策 Transformer 相对于 UDRL 的明显优势。在比较 UDRL (Impla)和 CQL (在评估的每个模型尺寸上使用相同的 Impla)时,可以观察到 UDRL (impla)优于 CQL。结果表明,本文方法的好处不仅来自于使用的网络架构,同时来自于 UDRL 公式。

尽管由于设计空间的因素,将 Transformer 与所有可能的卷积架构进行比较是不可行的,但研究者相信这些经验性的结果仍然显示了一个明显的趋势,对于 UDRL 和 Transformer 架构都是有益的。

相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
50 3
|
6月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
151 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
3月前
|
存储 人工智能
|
6天前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
AI经营|多Agent择优生成商品标题
|
7天前
|
人工智能 算法 搜索推荐
清华校友用AI破解162个高数定理,智能体LeanAgent攻克困扰陶哲轩难题!
清华校友开发的LeanAgent智能体在数学推理领域取得重大突破,成功证明了162个未被人类证明的高等数学定理,涵盖抽象代数、代数拓扑等领域。LeanAgent采用“持续学习”框架,通过课程学习、动态数据库和渐进式训练,显著提升了数学定理证明的能力,为数学研究和教育提供了新的思路和方法。
18 3
|
8天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
44 4
|
21天前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
148 6
|
1月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
111 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
1月前
|
机器学习/深度学习 人工智能 算法
打造你的超级Agent智能体——在虚拟迷宫中智斗未知,解锁AI进化之谜的惊心动魄之旅!
【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战,通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境,并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素,适合初学者理解Agent概念及其实现方法。
85 9
|
2月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验

热门文章

最新文章