在人工智能领域,序列生成模型一直是研究的热点,尤其是在自然语言处理、视频预测和决策制定等方面。最近,一种名为“扩散强制”(Diffusion Forcing,简称DF)的新训练范式引起了广泛关注。这种方法通过将扩散模型训练为去噪一系列具有独立噪声水平的token,展示了其在序列生成建模中的潜力。与传统的下一token预测模型和全序列扩散模型相比,DF不仅能够生成可变长度的序列,还能在连续数据中稳定生成,同时接受引导以生成高奖励的序列。
扩散强制(DF)的核心在于将每个token与一个随机的、独立的噪声水平相关联,并通过共享的下一token或未来几个token的预测模型来去噪。这种方法的灵感来自于将噪声视为部分掩蔽的一种形式——零噪声意味着token未被掩蔽,而完全噪声则完全掩蔽了token。因此,DF迫使模型学习如何“揭开”任何集合的可变噪声token。
在序列生成方面,DF被实现为因果扩散强制(Causal Diffusion Forcing,简称CDF),其中未来的token依赖于过去的token,通过因果架构进行去噪。CDF在采样时逐渐将高斯噪声帧去噪为干净样本,不同帧在每个去噪步骤中可能具有不同的噪声水平。与下一token预测模型类似,CDF可以生成可变长度的序列;与下一token预测不同,它能够稳定地从下一个token到数千个token的未来生成——即使是连续的token。此外,与全序列扩散类似,CDF也接受引导,以生成高奖励的序列。
通过在视频生成、模型基规划、视觉模仿学习和时间序列预测等多个领域的广泛评估,DF展示了其独特的能力。例如,在视频预测方面,DF能够稳定地生成长序列,即使超出训练序列长度,也能保持一致性,而不会像传统的教师强制和全序列扩散基线那样迅速发散。在决策制定方面,DF通过蒙特卡洛树引导(Monte Carlo Tree Guidance,简称MCTG)显著提高了高奖励序列的采样能力,这在非因果全序列扩散模型中是无法实现的。
DF不仅在实证研究中取得了成功,还在理论上证明了其优化目标的有效性。具体来说,DF的训练过程优化了一个关于所有token子序列的联合分布的变分下界。这意味着,DF不仅能够生成训练集中的所有可能子序列,还能在优化过程中考虑到这些子序列的分布。
尽管DF在多个领域展示了其潜力,但其当前的因果实现基于小型RNN,对于更高分辨率的视频或更复杂的分布,可能需要大型的变换器模型。此外,DF在互联网规模的数据集和任务中的扩展行为尚未得到充分研究。未来的工作可能会探索DF在时间序列生成建模之外的应用,并将其扩展到更大的数据集。