无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散

简介: 【8月更文挑战第15天】在AI领域,新训练范式“扩散强制”(DF)为序列生成模型带来革新。DF通过独立噪声级去噪token,实现稳定且可变长度的序列生成,支持引导生成高价值序列。其核心机制使模型学习揭露不同噪声级别的token。在视频预测等领域,DF展现出生成长序列的一致性及通过蒙特卡洛树引导提高决策质量的能力。理论与实证均验证了DF的有效性,尽管现有实现受限于小型RNN,未来有望拓展至更大模型与数据集。[论文](https://arxiv.org/pdf/2407.01392)

在人工智能领域,序列生成模型一直是研究的热点,尤其是在自然语言处理、视频预测和决策制定等方面。最近,一种名为“扩散强制”(Diffusion Forcing,简称DF)的新训练范式引起了广泛关注。这种方法通过将扩散模型训练为去噪一系列具有独立噪声水平的token,展示了其在序列生成建模中的潜力。与传统的下一token预测模型和全序列扩散模型相比,DF不仅能够生成可变长度的序列,还能在连续数据中稳定生成,同时接受引导以生成高奖励的序列。

扩散强制(DF)的核心在于将每个token与一个随机的、独立的噪声水平相关联,并通过共享的下一token或未来几个token的预测模型来去噪。这种方法的灵感来自于将噪声视为部分掩蔽的一种形式——零噪声意味着token未被掩蔽,而完全噪声则完全掩蔽了token。因此,DF迫使模型学习如何“揭开”任何集合的可变噪声token。

在序列生成方面,DF被实现为因果扩散强制(Causal Diffusion Forcing,简称CDF),其中未来的token依赖于过去的token,通过因果架构进行去噪。CDF在采样时逐渐将高斯噪声帧去噪为干净样本,不同帧在每个去噪步骤中可能具有不同的噪声水平。与下一token预测模型类似,CDF可以生成可变长度的序列;与下一token预测不同,它能够稳定地从下一个token到数千个token的未来生成——即使是连续的token。此外,与全序列扩散类似,CDF也接受引导,以生成高奖励的序列。

通过在视频生成、模型基规划、视觉模仿学习和时间序列预测等多个领域的广泛评估,DF展示了其独特的能力。例如,在视频预测方面,DF能够稳定地生成长序列,即使超出训练序列长度,也能保持一致性,而不会像传统的教师强制和全序列扩散基线那样迅速发散。在决策制定方面,DF通过蒙特卡洛树引导(Monte Carlo Tree Guidance,简称MCTG)显著提高了高奖励序列的采样能力,这在非因果全序列扩散模型中是无法实现的。

DF不仅在实证研究中取得了成功,还在理论上证明了其优化目标的有效性。具体来说,DF的训练过程优化了一个关于所有token子序列的联合分布的变分下界。这意味着,DF不仅能够生成训练集中的所有可能子序列,还能在优化过程中考虑到这些子序列的分布。

尽管DF在多个领域展示了其潜力,但其当前的因果实现基于小型RNN,对于更高分辨率的视频或更复杂的分布,可能需要大型的变换器模型。此外,DF在互联网规模的数据集和任务中的扩展行为尚未得到充分研究。未来的工作可能会探索DF在时间序列生成建模之外的应用,并将其扩展到更大的数据集。

论文地址:https://arxiv.org/pdf/2407.01392

目录
相关文章
|
存储 编解码 缓存
视频平台技术成本控制的量化方法
在线视频平台为用户提供服务时,面临的一个严重的挑战是,如何保证在为用户提供流畅 且稳定播放服务的前提下,尽量降低整体运营成本。本篇文章将围绕上述问题,重点讨论技术实践中的成本控制手段。
视频平台技术成本控制的量化方法
|
10月前
|
人工智能 安全 云计算
非洲首届奥运赛事将跑在阿里云上!
阿里云将为2026年达喀尔青奥会提供全程云计算与AI支持,覆盖赛事核心应用及服务,助力赛事全面上云,提升运营效率与观众体验。这将是奥运史上首届在非洲举办的综合性赛事,也将首次由云计算和AI技术全面支撑运行。
429 0
|
弹性计算 语音技术
快速部署 ChatTTS 社区版
ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。本文介绍通过计算巢快速部署 ChatTTS 服务 。
快速部署 ChatTTS 社区版
|
机器学习/深度学习 PyTorch 算法框架/工具
Pytorch使用专题 | 2 :Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用
介绍Pytorch中数据读取-Dataset、Dataloader 、TensorDataset 和 Sampler 的使用
el-input实现后缀图标和clearable的兼容,调整el-input clearable与自定义图标展示位置问题
el-input实现后缀图标和clearable的兼容,调整el-input clearable与自定义图标展示位置问题
1232 1
|
机器学习/深度学习 缓存 TensorFlow
TensorFlow 数据管道优化超重要!掌握这些关键技巧,大幅提升模型训练效率!
【8月更文挑战第31天】在机器学习领域,高效的数据处理对构建优秀模型至关重要。TensorFlow作为深度学习框架,其数据管道优化能显著提升模型训练效率。数据管道如同模型生命线,负责将原始数据转化为可理解形式。低效的数据管道会限制模型性能,即便模型架构先进。优化方法包括:合理利用数据加载与预处理功能,使用`tf.data.Dataset` API并行读取文件;使用`tf.image`进行图像数据增强;缓存数据避免重复读取,使用`cache`和`prefetch`方法提高效率。通过这些方法,可以大幅提升数据管道效率,加快模型训练速度。
444 0
|
存储 编译器 C语言
从C语言到C++_23(多态)抽象类+虚函数表VTBL+多态的面试题(下)
从C语言到C++_23(多态)抽象类+虚函数表VTBL+多态的面试题
481 1
|
安全 Java
Qt单例:Qt有专门的宏Q_GLOBAL_STATIC,用来实现线程安全的单例模式
Qt单例:Qt有专门的宏Q_GLOBAL_STATIC,用来实现线程安全的单例模式
1616 0
解决selenium打开edge浏览器闪退问题
解决selenium打开edge浏览器闪退问题
840 1