在这篇长达 62 页的论文中,LeCun 表示,这篇论文提炼了他对过去 5 年 - 10 年关于 AI 发展大方向的思考,这基本上是他计划在接下来的 10 年中开展的工作,也是他希望激励其他人从事的工作。
随着机器学习的不断发展,领域内的研究者开始思考一个问题:我们离通用人工智能(AGI)还有多远?
要实现 AGI,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识。
这也是图灵奖得主 LeCun 近期在探索的问题。他曾表示:让机器像人或动物一样行动一直是他一生的追求。
LeCun 认为动物大脑的运行可以看作是对现实世界的模拟,他称之为世界模型。LeCun 表示,婴儿在出生后的头几个月通过观察世界来学习基础知识。观察一个小球掉几百次,普通婴儿就算不了解物理,也会对重力的存在与运作有基础认知。
不久之前,LeCun 表示他已经建立了世界模型的早期版本,可以进行基本的物体识别,他现在正致力于训练它做出预测。在昨天公布的一篇论文中,LeCun 详细地描述了这一愿景。
论文地址:https://openreview.net/pdf?id=BZ5a1r-kVsf
LeCun 表示,这篇论文提炼了他对过去 5 年 - 10 年关于 AI 发展大方向的思考,这基本上是他计划在接下来的 10 年中开展的工作,也是他希望激励其他人从事的工作。
LeCun 对下一代 AI 有了新想法
动物和人类表现出的学习能力和对世界的理解,远远超出了 AI 和机器学习系统。
一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在只需要很少的交流后就学会语言沟通,人类可以在他们从未遇到过的情况下采取行动。相比之下,为了可靠,当前的 ML 系统需要通过大量试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,我们最好的 ML 系统在现实世界任务(例如驾驶)中仍远未达到人类可靠性,即使在从人类专家那里获得大量监督数据之后、在虚拟环境中经历了数百万次强化学习试验之后等等,可靠性还没有好转。
目前,AI 研究必须解决三个挑战:
- 机器如何学习表征世界,学习进行预测以及通过观察后采取行动?现实世界中的交互既昂贵又危险,智能体应该在没有互动的情况下 (通过观察) 尽可能多地了解这个世界,从而尽可能减少学习一项特定任务所需昂贵而危险的试验次数。
- 机器如何以基于梯度学习的方式进行推理和规划?目前最好的学习方法是依赖估计和梯度的,而这些方法只能用可微架构来执行,并且很难与基于逻辑的符号推理相协调。
- 机器如何学习以一种分层的方式,在多个抽象级别和多个时间尺度上表示感知和行动规划?人类和动物都能够构思出多层次的抽象概念,通过将复杂的行动分解成一系列较低层次的行动,可以实现长期的预测和规划。
Yann LeCun 在论文中提出了一种智能的智能体架构,该架构可以解决三个挑战。本文的贡献如下:
- 一个整体的认知架构,其中所有模块都是可微的,并且还是可训练的;
- JEPA 和分层 JEPA:用于预测世界模型的非生成架构,可以学习表征的层次结构;
- 一种非对比的自监督学习范式,它产生的表征同时具有信息性和可预测性。
自主智能架构
LeCun 提出一种名为自主智能(autonomous intelligence)的新型架构,如下图所示:
自主智能架构中包含多个模块。一些模块可以即时配置,它们的具体功能由配置器(configurator)模块确定。配置器的作用是执行控制:给定要执行的任务,它预先配置针对当前任务的感知(perception)、世界模型(world model)、成本(cost)和参与者(actor)。
配置器模块从其他模块获取输入,并根据给定任务调整其他模块的参数和注意力电路。特别地,配置器可以启动感知、世界模型和成本模块以实现特定的目标。
感知模块接收来自传感器的信号并估计世界的当前状态。给定一个任务,感知到的世界状态中只有一小部分是和任务相关有用的。感知模块可以以分层的方式表征世界的状态,具有多个抽象级别。配置器启动感知系统以从感知中提取相关信息用于当前任务。
世界模型模块是整个架构中最复杂的部分,它有双重作用:(1)估计感知未提供的关于世界状态的缺失信息;(2)预测世界的合理未来状态。世界模型可以预测世界的自然演化,以及由参与者模块做出一系列动作产生的未来世界状态。
世界模型可以预测多个似是而非的世界状态,由表征世界状态不确定性的潜在变量进行参数化。世界模型是一种对世界相关方面的「模拟器」,而哪些方面是相关的,取决于当前任务。配置器负责配置世界模型,世界模型的预测是在包含任务相关信息的抽象表征空间内执行的。理想情况下,世界模型将在多个抽象层次上操纵世界状态的表征,使其能够在多个时间尺度上进行预测。
这里有一个关键的问题:世界模型必须能够表征世界状态的多种可能预测。然而,自然世界不是完全可以预测的,特别是包含具有对抗性的智能体时尤其如此。但即使世界只包含无生命的物体,它们的行为仍然是混乱的,其状态不能完全观察到。因此,在构建新架构时,有两个基本问题需要回答:(1)如何让世界模型做出多个合理的预测并表征预测中的不确定性;(2)如何训练世界模型。
成本模块以称为能量(energy)的标量形式测量智能体的「不适(discomfort)」程度。能量是由两个子模块计算的两个能量项的总和:内部成本(Intrinsic Cost)模块和可训练评价者(Trainable Critic)模块。智能体的总体目标是采取行动以保持在最小平均能量的状态。内部成本模块的设计决定了智能体行为的性质,其输入是由感知模块产生的世界当前状态,或者是世界模型预测的潜在未来状态。内部成本模块可以由配置器控制,以在不同时间驱动不同的行为。
可训练评价者模块负责预测未来的内部能量。与内部成本模块一样,可训练评价者模块的输入要么是世界的当前状态,要么是世界模型预测的可能状态。对于训练,该模块检索存储在关联记忆模块中的过去状态和随后的内部成本,并训练自己从前者预测后者。同样,可训练评价者模块也由配置器根据给定任务动态配置。由于成本模块的两个子模块都是可微的,所以能量梯度可以通过其他模块反向传播。
短期记忆模块类似于脊椎动物中的海马体,负责存储有关世界过去、现在和未来状态的相关信息,以及内部成本的相应值。世界模型可以向短期记忆模块发送查询请求、接收检索到的值、更新存储状态值。整体架构通过从记忆模块检索过去的状态和相关的内部成本来训练评价者模块。
参与者模块计算动作序列并将动作输出到效应器。世界模型根据动作序列预测未来的世界状态序列,并将其反馈给成本模块。配置器首先会给定成本模块一个目标,然后成本模块会根据所提动作序列估计未来能量。
参与者模块可以访问估计成本的梯度,因此它可以使用基于梯度的方法计算出最小化估计成本的最优动作序列。如果动作空间是离散的,则可以使用动态规划来找到最佳动作序列。优化完成后,actor 将第一个动作(或一小段动作)输出到效应器。这个过程类似于最优控制中的模型预测控制(Bryson 和 Ho,1969)。
参与者模块包括两个组件:(1)策略模块,它直接从感知模块产生、从记忆模块检索的世界状态估计中产生一个动作;(2)动作优化器,用于模型 - 预测控制。
下面我们重点看一下架构中最复杂的部分 —— 世界模型的设计和训练过程。