Transformers+世界模型,竟能拯救深度强化学习?

简介: Transformers+世界模型,竟能拯救深度强化学习?
【新智元导读】前一段时间,LeCun曾预言AGI:大模型和强化学习都没出路,世界模型才是新路。但最近,康奈尔大学有研究人员,正试着用Transformers将强化学习与世界模型连接起来。


很多人都知道,当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本,分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master,以及吊打前两代的三代目AlphaGo Zero。

AlphaGo的棋艺能够逐代递增,背后其实是在AI技术上一个出现了明显的变化趋势,就是强化学习的比重越来越大。

到了近几年,强化学习又发生了一次「进化」,人们把「进化」后的强化学习,称为深度强化学习。

但深度强化学习代理的样本效率低下,这极大地限制了它们在实际问题中的应用。

最近,许多基于模型的方法被设计来解决这个问题,在世界模型的想象中学习是最突出的方法之一。

然而,虽然与模拟环境几乎无限的交互听起来很吸引人,但世界模型必须在很长一段时间内保持准确。

受Transformer在序列建模任务中的成功启发,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS,这是一种数据高效代理,它在由离散自编码器和自回归Transformer组成的世界模型中学习。

在Atari 100k基准测试中,在仅相当于两个小时的游戏时间里,IRIS的平均人类标准化得分为1.046,并且在26场比赛中的10场比赛中表现优于人类。

此前,LeCun曾说,强化学习会走进死胡同。


现在看来,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在将世界模型与强化学习(更准确地说是深度强化学习)融为一体,而连接两者的桥梁,便是Transformers。

深度强化学习有什么不一样


一提到人工智能技术,很多人能想到的,还是深度学习上。

其实,虽然深度学习还活跃在AI领域,但已经暴露出很多问题。

现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。

以至于针对这种局面,有人调侃道「有多少人工,就有多少智能」。

很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。

于是,强化学习开始崛起了。

强化学习和有监督学习、无监督学习都不太一样,它是用智能体不断地试错,并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为,只要奖励激励设定对头,强化学习终将造出真正AGI。

但强化学习也有问题,用LeCun的话说,就是「强化学习要用巨量数据才能训练模型执行最简单任务」。

于是强化学习与深度学习进行了结合,成为深度强化学习。

深度强化学习,强化学习是骨架,深度学习是灵魂,这是什么意思呢?深度强化学习的主要运行机制,其实与强化学习是基本一致的,只不过使用了深度神经网络来完成这一过程。

更有甚者,有的深度强化学习算法,干脆直接在现成的强化学习算法上,通过添加深度神经网络来实现一套新的深度强化学习算法,非常有名的深度强化学习算法DQN就是典型的例子。

Transformers有什么神奇之处


Transformers首次亮相于2017年,是Google的论文《Attention is All You Need》中提出的。


在 Transformer出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说,「从某种意义上说,NLP曾落后于计算机视觉,而Transformer改变了这一点。」

近年来,Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。

Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。

目前,Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。

比如,Transformer已被用于时间序列预测,同时也是DeepMind的蛋白质结构预测模型 AlphaFold背后的关键创新。

Transformer最近也进入了计算机视觉领域,在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。

世界模型与Transformers联手,其他人怎么看


对于康奈尔大学的研究成果,有外国网友评论道:「请注意,这两个小时是来自环境的镜头长度,在GPU上进行训练需要一周的时间」。

还有人质疑:所以这个系统在一个特别精确的潜在世界模型上学习?该模型不需要预先训练吗?

另外,有人觉得,康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破:「似乎他们只是训练了世界模型,vqvae和演员评论家,所有这些都来自那2个小时的经验(和大约600个纪元)的重播缓冲区」。


参考资料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/

相关文章
|
6月前
|
运维 安全 数据可视化
如何开发一套设备管理系统?(附架构图+流程图+代码参考)
随着企业对生产效率和设备安全的重视,设备管理系统成为企业运营的重要工具。该系统可实现设备的全生命周期管理,涵盖点检、巡检、报修、维修、保养及备件管理等功能,提升设备使用率,降低运营成本。通过自动化管理与实时数据记录,系统为企业提供高效、可靠的管理支持。本文详解系统开发流程,并提供代码示例,帮助理解实现过程。
|
传感器 测试技术 芯片
在硬件连接时,如何确定 GPIO 引脚的功能和编号
在硬件连接中,确定GPIO引脚的功能和编号需查阅相关芯片或开发板的官方文档,了解引脚布局图,确认引脚的具体功能和编号,以确保正确连接和编程。
1173 3
|
JSON 中间件 数据格式
解决scrapy设置cookie中间件时遇到的问题
解释COOKIES_ENABLED作用: * 当COOKIES_ENABLED是注释的时候scrapy默认没有开启cookie * 当COOKIES_ENABLED没有注释设置为False的时候scrapy默认使用了settings里面的cookie * 当COOKIES_ENABLED设置为True的时候scrapy就会把settings的cookie关掉,使用自定义cookie
647 90
|
敏捷开发 数据可视化 Java
低代码和无代码:简单概念之下的深刻内涵
从2020年到2024年,低代码和无代码开发平台凭借其独特优势,逐渐成为企业敏捷开发和快速响应市场变化的利器。本文深入探讨了这两种平台的概念、用户需求及开发内涵,揭示了它们在现代软件开发中的重要价值和应用场景,帮助读者更好地理解低代码和无代码平台的核心特点及其对企业数字化转型的推动作用。
|
Unix Linux 开发工具
git中有关old mode 100644、new mode 10075的问题解决小结
在 Git 中处理文件权限变更时,理解 `old mode 100644` 和 `new mode 100755` 的含义是解决问题的关键。通过确认变更的合理性、修改不必要的权限变更,以及配置 Git 忽略权限变更,可以有效管理文件权限,确保版本库的稳定性和一致性。
1526 3
|
机器学习/深度学习 人工智能 监控
AI视频监控技术的核心优势与实践
AI视频监控技术结合了计算机视觉、深度学习和大数据分析,能够实时分析监控画面,识别异常行为和场景变化。其核心在于从“被动记录”转型为“主动识别”,提升监控效率并减少安全隐患。主要应用场景包括泳池管理、健身器械区域、人员密度预警和异常事件检测。系统架构支持多种摄像头设备,采用边缘计算和Docker部署,具备实时性、高准确率和扩展性等优势。未来将优化复杂场景适应性和实时计算负载,进一步提高系统性能。
3305 7
|
存储 监控 安全
警用装备管理系统框架图
警用装备管理系统采用多层架构,包括感知层实时采集装备信息,网络层安全传输数据,接入层支持设备互联,数据层存储管理装备详情,业务层处理核心操作如出入库、调拨等,应用层提供用户界面操作,展示层以图表等形式展现数据分析结果,辅助决策。
287 0
|
监控 安全 虚拟化
深入浅出:NSSM封装Windows服务工具的使用与介绍
深入浅出:NSSM封装Windows服务工具的使用与介绍
1057 3
|
机器学习/深度学习 人工智能 资源调度
深度强化学习技术概述
在本文中详细介绍了深度强化学习技术,将强化学习分成三大类(value-based算法、policy-based算法及结合两者的AC算法)来进行介绍。首先,从数学理论角度介绍了强化学习;接着,从不同适用方向对两类深度强化学习算法进行介绍:基于值函数(Value-based)的深度强化学习算法DQN和基于策略(Policy-based)的深度强化学习算法PG。最后,介绍目前应用广泛的结合前两个算法的结合物AC(Actor-Critic)算法。
2585 2
深度强化学习技术概述

热门文章

最新文章