设计和训练世界模型
毫不夸张的说,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。本文的主要贡献之一正是分层架构和世界模型的训练,可以在预测中表示多个结果。
训练世界模型是自监督学习(SSL)中的一个典型例子,其基本思想是模式补全。对未来输入(或暂时未观察到的输入)的预测是模式补全的一个特例。在这项工作中,世界模型旨在预测世界状态未来表征。
自监督学习
自监督学习 (SSL) 作为一种范式,可用来训练学习系统以捕获输入之间的相互依赖关系。具体来说,这通常归结为训练一个系统来告诉其输入的各个部分是否彼此一致。
本文还介绍了一种基于能量的模型(EBM)架构,如图 8 所示,数据点是黑点,能量函数在数据点周围产生低能量值,并在远离高数据密度区域的区域产生较高能量,如能量等高线所示。
自监督学习 (SSL) 和基于能量的模型 (EBM)
联合嵌入预测架构(JEPA)
本文的核心是联合嵌入预测架构 (JEPA)。JEPA 不是生成式的,因为它不能轻易地用于从 x 预测 y。它仅捕获 x 和 y 之间的依赖关系,而不显式生成 y 的预测。图 12 显示了一个通用 JEPA。
与 EBM 一样,可以使用对比方法训练 JEPA。但是,对比方法在高维空间中效率很低。本文设计出了非对比方法来训练它们,在 JEPA 的情况下,可以通过四个标准来完成,如图 13 所示:1. 最大化 s_x 关于 x 的信息量;2. 最大化 s_y 关于 y 的信息量;3. 使 s_y 容易从 s_x 中预测;4. 最小化用于预测潜在变量 z 的信息含量。
分层 JEPA (H-JEPA)
图 15 显示了多级、多尺度下世界状态预测的可能架构,变量 x_0, x_1, x_2 表示一系列观察值。第一级网络表示为 JEPA-1,使用低级表征执行短期预测。第二级网络 JEPA-2 使用高级表征进行长期预测。研究者可以设想这种类型的架构有许多层,可能会使用卷积和其他模块,并使用级之间的时间池来粗粒度的表示和执行长期的预测。使用 JEPA 的任何非对比方法,可以进行 level-wise 或全局的训练。
分层规划
分层规划比较困难,几乎没有解决方案,大多数都需要预先定义动作的中间词汇。图 16 显示了分层模式 2 规划的可能架构,该架构可以利用多尺度世界模型的分层特性。
图 17 表示了不确定情况下的分层规划阶段。
文章最后,LeCun 表示文中许多观点是多年来与不同研究者互动的结晶。了解更多内容,请查看原论文。