强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 强化学习也有基础模型了!DeepMind重磅发布AdA,堪比人类的新环境适应能力




 新智元报道  

编辑:LRS

【新智元导读】强化学习也要进入预训练时代了!


基础模型(foundation models)在监督和自监督学习问题上展现出强大的领域适应性(adaption)和可扩展性(scalability),但强化学习领域仍然没有基础模型。

最近DeepMind的Adaptive Agents团队提出了一种人-时间尺度(human-timescale)自适应智能体AdA(Adaptive Agent),证明经过大规模训练后的RL智能体也能具有通用上下文的学习能力,该算法可以像人一样快速适应开放式的具身3D问题。

论文链接:https://arxiv.org/abs/2301.07608

在一个巨大的动态空间环境中,自适应智能体展现出即时的假设驱动的探索,能够有效地利用获得的知识,而且可以接受第一人称演示作为提示(prompt)。

研究人员认为其适应性主要来源于三个因素

1. 在一个巨大的、平滑的和多样化的任务分布中进行元强化学习;2. 一个参数化的、基于注意力的大规模记忆结构的策略;3. 一个有效的自动curriculum,在代理能力的前沿对任务进行优先排序。

实验部分展示了与网络规模、记忆长度和训练任务分布的丰富程度有关的特征性扩展规律;研究人员认为该结果为日益普遍和适应性强的RL智能体奠定了基础,智能体在开放领域环境仍然表现良好。

RL基础模型

人类往往能够在几分钟内适应一个新的环境,这是体现人类智能的一个关键特性,同时也是通往通用人工智能道路上的一个重要节点。

不管是何种层次的有界理性(bounded retionality),都存在一个任务空间,在这个空间中,智能体无法以zero-shot的方式泛化其策略;但如果智能体能够非常快速地从反馈中学习,那么就可能取得性能提升。

为了在现实世界中以及在与人类的互动中发挥作用,人工智能体应该能够在「几次互动」中进行快速且灵活的适应,并且应该在可用数据量提升时继续适应。

具体来说,研究人员希望训练出的智能体在测试时,只需要在一个未见过的环境中给定几个episode的数据,就能完成一个需要试错探索的任务,并能随后将其解决方案完善为最佳的行为。

元强化学习(Meta-RL)已经被证明对快速的语境适应是有效的,然而,不过元RL在奖励稀疏、任务空间巨大且多样化的环境中作用有限。

这项工作为训练RL基础模型铺平了道路;也就是说,一个已经在庞大的任务分布上进行了预训练的智能体,在测试时,它能以few-shot的方式适应广泛的下游任务。

自适应智能体(AdA)能够在具有稀疏奖励的巨大开放式任务空间中进行人类时间尺度适应,不需要任何提示、微调或访问离线数据集。

相反,AdA表现出假设驱动的探索行为,利用即时获得的信息来完善其策略,能够有效地获取知识,在第一人称像素观察的部分可观察的三维环境中,在几分钟内适应奖励稀疏的任务。

自适应智能体Ada 研究人员提出了一种基于记忆的元RL通用和可扩展的方法以生成自适应智能体(AdA)首先在XLand 2.0中训练和测试AdA,该环境支持按程序生成不同的三维世界和多人游戏,具有丰富的动态性,需要智能体拥有足够的适应性。该训练方法结合了三个关键部分:1)指导智能体学习的课程(curriculum);2)基于模型的RL算法来训练具有大规模注意力记忆的代理;以及,3)蒸馏以实现扩展。1. 开放端任务空间:XLand 2.0XLand 2.0相比XLand 1.0扩展了生产规则的系统,其中每条规则都表达了一个额外的环境动态,从而具有更丰富、更多样化的不同过渡功能。XLand 2.0是一个巨大的、平滑的、多样化的适应问题的任务空间,不同的任务有不同的适应性要求,如实验、工具用法或分工等。例如,在一个需要实验的任务中,玩家可能需要识别哪些物体可以有用地结合,避免死胡同,然后优化他们结合物体的方式,就像一个玩具版的实验化学。每个任务可以进行一次或多次试验,试验之间的环境会被重置,但智能体记忆不会被重置。上图中突出显示的是两个示例任务,即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」,展示了目标、初始物体、生产规则以及智能体需要如何与它们互动以解决任务。

2. 元强化学习

根据黑箱元RL问题的设置,研究人员将任务空间定义为一组部分可观察的马尔科夫决策过程(POMDPs)。对于一个给定的任务,试验的定义为从初始状态到终端状态的任意转换序列。在XLand中,当且仅当某个时间段𝑇∈[10s, 40s]已经过去时,任务才会终止,每个任务都有具体规定。环境以每秒30帧的速度变化,智能体每4帧观察一次,因此任务长度以时间为单位,范围为[75, 300]。一个episode由一个给定任务的试验序列组成。在试验边界,任务被重置到一个初始状态。在领域内,初始状态是确定的,除了智能体的旋转,它是统一随机抽样的。在黑箱元RL训练中,智能体利用与广泛分布的任务互动的经验来更新其神经网络的参数,该网络在给定的状态观察中智能体的行动政策分布提供参数。如果一个智能体拥有动态的内部状态(记忆),那么元RL训练通过利用重复试验的结构,赋予该记忆以隐性的在线学习算法。在测试时,这种在线学习算法使智能体能够适应其策略,而无需进一步更新神经网络权重,也就是说,智能体的记忆不是在试验边界被重置,而是在episode边界被重置。3. 自动课程学习(Auto-curriculum learning)鉴于预采样任务池的广度和多样性,智能体很难用均匀采样进行有效地学习:大多数随机采样的任务可能会太难(或太容易),无法对智能体的学习进度有所帮助。相反,研究人员使用自动化的方法在智能体能力的前沿选择相对「有趣 」(interesting)的任务,类似于人类认知发展中的「近侧发展区间」(zone of proximal development)。具体方法为对现有技术中的no-op filtering和prioritised level replay(PLR)进行扩展,能够极大提升智能体的性能和采样效率,最终成为了一个新兴的课程,能够随着时间的推移选择越来越复杂的任务。

4. RL智能体

学习算法RL算法选择Mueslie,输入为一个历史相关的编码(history-dependent encoding),输出为RNN或Transformer,AdA学习一个序列模型(LSTM)对后续多步预测价值、行动分布和奖励。记忆架构在每个时间步,将像素观察、目标、手、试验和时间信息、生成规则、之前的行动和奖励嵌入化并合并为一个向量。这些观察嵌入顺序输入到Transformer-XL中,其输出嵌入输入到MLP价值头、MLP策略头和Muesli LSTM模型步、不止few-shot通过对Transformer-XL架构做了一个简单的修改,就可以在不增加计算成本的情况下增加有效的记忆长度。由于在视觉RL环境中的观察往往与时间高度相关,所以研究人员提出对序列进行子采样。为了确保在子采样点之间的观察仍然可以被关注到,使用一个RNN对整个轨迹进行编码,可以总结每一步的最近历史。结果表明,额外的RNN编码并不影响模型中Transformer-XL变体的性能,但能够保持更远的记忆。

5. 蒸馏

对于训练的前40亿步,研究人员使用一个额外的蒸馏损失用预训练教师模型的策略来指导AdA的学习,整个过程也称之为kickstarting教师模型通过强化学习从头开始进行预训练,使用与AdA相同的训练程序和超参数,但教师模型没有初始蒸馏,并且具有较小的模型规模:教师模型只有2300万Transformer参数,而多智能体AdA拥有2.65亿参数。在蒸馏过程中,AdA根据自己的策略行动,教师模型根据AdA观察到的轨迹提供目标Logits;使用蒸馏可以摊销昂贵的初始训练期,并使智能体能够消除在训练的初始阶段学到的有害表征。然后将蒸馏损失与Muesli结合起来,最小化模型预测的所有行动概率与教师策略在相应时间段预测的行动概率之间的KL-散度。研究人员还发现了一个有用的小操作,可以在蒸馏期间添加一个额外的L2正则化项。


参考资料:https://arxiv.org/abs/2301.07608


相关文章
|
3月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
4月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
137 2
|
5月前
|
人工智能
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
【7月更文挑战第3天】新研究表明语言和思维是分离的,引发AI社区激烈讨论。论文通过fMRI实验显示语言处理与思维在大脑中独立,即使无语言人们仍能推理。这质疑了AI仅通过语言学习高级智能的可能性,暗示应更关注模拟人类思维。[[1](https://www.nature.com/articles/s41586-024-07522-w)]
86 1
|
7月前
|
人工智能
谷歌重磅发布AlphaFold 3,增强人类发现新药方法!
【5月更文挑战第19天】谷歌DeepMind推出AlphaFold 3,这是人工智能在生物分子结构预测上的新里程碑,有望革新药物发现。相较于前代,AlphaFold 3采用新扩散基架构,提升预测复杂结构的准确性,并在蛋白质-配体、蛋白质-核酸及抗体-抗原相互作用预测上展现优越性能。然而,科学家对其预测误差和可能对现有预测工具的影响持谨慎态度。论文链接:[Nature](https://www.nature.com/articles/s41586-024-07487-w#citeas)
70 9
|
7月前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
95 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
7月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
104 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
7月前
|
人工智能 自然语言处理 API
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
|
机器学习/深度学习 数据采集 人工智能
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
给爆火的Llama 2划重点,Huggingface机器学习科学家写了篇分析文章
235 1
|
测试技术 API C++
超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了
超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了
560 0
|
机器学习/深度学习 数据采集 人工智能
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写(2)
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
234 0

热门文章

最新文章