Video-GPT
VideoGPT是一种概念简单的架构,用于扩展基于似然的生成对自然视频进行建模。Video-GPT将通常用于图像生成的VQ-VAE和Transformer模型以最小的修改改编到视频生成领域。VideoGPT使用VQVAE,VQVAE通过采用3D卷积和轴向自注意力学习降采样的原始视频离散潜在表示。然后使用简单的类似GPT的架构进行自回归,使用时空建模离散潜在位置编码。VideoGPT结构如图7:
图7. 把训练管道分成两个连续的阶段:训练VQ-VAE(左)和训练潜在空间的自回归变换器(右)。第一阶段类似于原始的VQ-VAE训练程序。在第二阶段,VQ-VAE将视频数据编码为潜在序列作为先验模型的训练数据。对于推理阶段,首先从先验中抽取一个潜在序列,然后用VQ-VAE将潜在序列解码为视频样本
Learning Latent Codes
为了学习一组离散的潜在编码,首先在视频数据上训练一个VQ-VAE。编码器结构由一系列三维卷积组成,这些卷积在空间-时间上进行下采样,然后是注意力残差块。每个注意力残差块的设计如图8所示,使用LayerNorm和轴向注意力层。解码器的结构与编码器相反,注意力残差块之后是一系列的三维转置卷积,在空间-时间上进行上采样。位置编码是学习到的时空嵌入,在编码器和解码器的所有轴向注意力层之间共享。
图8. VQVAE中注意力残差块的结构
Learning a Prior
第二阶段是对第一阶段的VQ-VAE潜在编码进行先验学习。遵循Image-GPT的先验网络结构,只是在前馈层和注意力块层之后增加了dropout层,用于正则化。尽管VQ-VAE是无条件训练的,但可以通过训练一个条件先验来生成条件样本。可以使用两种类型的条件。
交叉注意力(Cross Attention)。对于video frame conditioning,首先将调整后的帧送入一个3D ResNet,然后在之前的网络训练中对ResNet的输出表示进行交叉注意力。
条件性范数(Conditional Norms)。与GANs中使用的调整方法类似,将transformer层归一化层中的增益和偏置参数化为条件向量的仿射函数。这种方法可以用于行动和类别调整模型。
当前 SOTA!平台收录 VideoGPT 共 1 个模型实现资源。
项目 | SOTA!平台项目详情页 |
VideoGPT | 前往SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/videogpt |
DVG
在给定几个背景(或过去)帧的情况下,生成未来帧是一项具有挑战性的任务。它需要从潜在的未来状态的多样性方面对视频的时间一致性和多模态进行建模。目前用于视频生成的变量方法倾向于将多模态的未来结果边缘化。而多样化视频生成器(Diverse Video Generator,DVG)则是对未来结果中的多模态进行明确建模,并利用它对不同的未来进行采样,DVG使用高斯过程(Gaussian Process,GP)来学习关于过去的未来状态的先验,并保持一个关于特定样本的可能未来的概率分布。此外,利用这个分布的超时变化,通过估计正在进行的序列的结束来控制不同未来状态的采样。即,利用GP在输出函数空间上的方差来触发行动序列的变化。
使用高斯过程对未来状态的多样性进行建模,是由于高斯过程具有几个理想的特性:它们在贝叶斯公式中学习了关于给定过去背景的潜在未来的先验。这使得我们能够在提供更多的背景框架作为证据时更新可能的未来分布,并保持一个潜在的未来列表(GP的基础函数)。DVG给出了一个非常有趣的formulation:估计何时生成一个不同的输出与继续一个正在进行的行动,以及控制预测的未来的方法。
DVG利用GP在任何特定时间步长的方差作为行动序列是否正在进行或结束的指标,具体如图9,当观察到一帧(例如在时间t)可能有几种可能的未来时,GP模型的方差很高(图9(左))。不同的函数表征可以生成的潜在行动序列,从这个特定的框架开始。一旦选择了下一帧(t+2),未来状态的GP方差相对较低(图9(中)),表明一个行动序列正在进行中,模型应该继续它,而不是试图对一个不同的样本进行采样。在正在进行的序列完成后,对潜在的未来状态的GP方差又变得很高。这意味着我们可以继续这一行动。以上过程简要说明了我们如何使用GP来决定何时触发不同的行动。图9(右)显示了一个使用GP触发器的例子,每隔几帧就触发一个不同的动作。
图19. 使用GP差异来控制正在进行的行动与新行动的抽样说明
给定一组观察到的帧,目标是生成一组多样化的未来帧。DVG模型有三个模块:(a)一个帧自动编码器(或编码器生成器),(b)一个LSTM时间动态编码器,(c)一个GP时间动态编码器,用于对各种潜在的未来状态进行先验和概率建模。帧编码器将帧映射到一个潜在的空间,随后被时间动力学编码器和帧发生器利用来合成未来帧。对于推理阶段,使用所有三个模块一起生成未来帧,并使用GP作为触发器来切换到不同的未来状态。
所有三个模块,帧自动编码器、LSTM及GP时间编码器,是使用以下目标函数联合训练的:
在推理过程中,将上述的三个模块组合在一起,将帧编码器的输出z_t输入给LSTM和GP编码器。LSTM输出zˆt+1,GP输出一个平均值和方差。GP的方差可以用来决定我们是否要继续一个正在进行的动作或产生新的多样化的输出,这个过程称之为触发开关。如果决定继续进行正在进行的动作,将LSTM的输出zˆt+1提供给解码器以生成下一帧;如果决定切换,就从GP中取样z˜t+1并将其作为输入提供给解码器。这个过程如图10所示(stage 3)。将生成的未来帧用作编码器的输入,以输出下一个z_(t+1);这个过程重复进行,直到得到我们想要的生成帧。
图10. DVG模型架构
当前 SOTA!平台收录 DVG共 1 个模型实现资源。
项目 | SOTA!平台项目详情页 |
DVG | 前往SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/dvg |
NÜWA
NÜWA不是一个单纯的视频生成模型,而是一个多模态预训练模型。为了同时覆盖语言、图像和视频的不同场景,NÜWA是一个三维变换器编码器-解码器框架,它不仅可以处理作为三维数据的视频,还可以分别用于处理一维和二维数据的文本和图像。
为了涵盖所有的文本、图像和视频或其草图,将它们全部视为token,并定义了一个统一的三维符号X∈R_h×w×s×d,其中,h和w表示空间轴上的token数量(分别为高度和宽度),s表示时间轴上的token数量,d是每个token的尺寸。文本自然是离散的,继Transformer之后,使用小写的 byte pair encoding 字节对编码(BPE)将其标记化并嵌入到R_1×1×s×d。由于文本没有空间维度,使用占位符1。图像是自然的连续像素。输入一个高度为H、宽度为W、通道为C的原始图像I∈R_H×W×C,VQ-VAE训练一个可学习的 codebook ,在原始连续像素和离散token之间建立一个桥梁。
其中,E为编码器。搜索到的结果z∈{0, 1, . . . , N - 1}_h×w被B嵌入,并由解码器G重构回Iˆ。VQ-VAE的训练损失函数为
VQ-GAN增强了VQ-VAE的训练,增加了感知损失和GAN损失,以减轻I和Iˆ之间的精确约束,并专注于高层次的语义匹配。
VQ-VAE训练后,B[z]为最终得到的图像表征。
对于视频,使用二维VQ-GAN对视频的每一帧进行编码,也可以产生时间上的一致性视频,并同时受益于图像和视频数据。由此生成的表征表示为R_h×w×s×d,其中,s表示帧的数量。
图11. NUWA的结构概述。它包含一个支持不同条件的自适应编码器和一个受益于图像和视频数据的预训练的解码器。对于图像补全、视频预测、图像操作和视频操作任务,输入的部分图像或视频被直接送入解码器
进一步,引入一个3D近距离关注(3DNA)机制,以考虑空间和时间轴的定位特性。3DNA不仅降低了计算的复杂性,而且还提高了生成结果的视觉质量。基于3DNA机制,引入一个3D encoder-decorder架构。为了在C的条件下生成一个目标Y,Y和C的位置编码由三个不同的可学习词汇更新,考虑到高度、宽度和时间轴:
然后,将条件送入一个由L个3DNA层堆叠而成的编码器,以模拟自注意力的相互作用,其中第l层为:
同样,解码器也是一个由L个3DNA层组成的堆栈。解码器同时计算生成结果的自注意力和生成结果与条件之间的交叉注意力:
在三个任务上训练模型时(文本到图像( Text-to-Image,T2I)、视频预测( Video Prediction ,V2V)和文本到视频( Text-t,o-Video T2V)),训练目标为交叉熵函数,分别表示为三个部分:
当前 SOTA!平台收录 NÜWA 共 1 个模型实现资源。
项目 | SOTA!平台项目详情页 |
NÜWA | 前往SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/nuwa |