视频生成经典模型资源（一）：TGAN、VGAN、MoCoGAN、SVG、vid2vid、VideoVAE、DVD-GAN-3-阿里云开发者社区

Holistic Attribute Control

整体属性a = (ai)i是一组预定义的属性，不随时间变化。例如，人类动作序列中的人的身份或一般视频片段中的场景标签。这些固定的属性变量对整个生成的视频序列进行整体控制，一般来说，可以是各种类型：分类的、离散的或连续的。它们的状态可以clamped在一个期望值上，从数据中推断出来，甚至可以从一些外部数据源中推导出来。在VideoVAE中，控制是在训练时以半监督的方式推断出来的，并在生成过程中设置为固定的。

Conditional Approximate Posterior

传统的VAE将数据编码为一个近似的后验分布，并从先验中取样来合成新的数据。这在图像生成中效果很好，因为每个合成的图像可以独立采样。然而，在视频生成中，连续的样本应该在时间上是一致的。换句话说，样本的提取应该以先前的信息为条件，而且样本的顺序也很重要。潜在编码Z应该将这种帧级一致性与上面讨论的整体控制变量所提供的序列级一致性结合起来。提出以下结构化的潜在空间，它包括一组分层的近似后验分布（图9b）。

1）一个初始的近似后验分布，N，从概念上对整体属性没有捕捉到的剩余信息进行建模。

2）一个条件近似后验，N，编码帧的全部外观，将整体属性控制与上述剩余后验相结合。

3）一个动态的近似后验，N，它进一步纳入了运动信息，并强制执行时间上一致的轨迹。

这三个分布可以用编码的输入、属性和LSTM状态来表示：

Decoder

在时间步长t的潜在变异表征是以LSTM的状态变量h(t-1)为条件的。这种额外的依赖性利用了视频在时间上高度一致的事实，防止两个连续帧之间的内容和运动变化过快。由于先验分布代表了模型在时间点t的预测和信念，考虑到以前的所有信息，它不应该是一个固定的高斯（如静态VAE的情况），而是遵循分布

输出分布根据以下公式更新

Encoder

在每个时间步长，帧输入x(t)被编码器函数φenc映射到分层潜在空间（图9b），解码器从中采样

Conditional Sampling

在迄今为止描述的时间框架中，只有分布N被传递给LSTM。换句话说，每个时间步长的样本没有沿着时间传递，因此是独立的，导致时间上不一致的序列（例如，就解码的RGB帧所表达的属性而言）。根据基于LSTM的语言解码器的直觉，引入了条件采样来解决这个问题。除了初始的近似后验分布N外，样本z(t)也被传递给LSTM（图9a）。因此，LSTM的隐藏状态会根据以下条件更新

这样一来，基于过去的信息，对样本z(t+1)在N中的位置有了合理的初始猜测。值得注意的是，由于模型的VAE结构，与语言翻译模型等相比，这种变化不需要改变架构本身。

当前 SOTA！平台收录 VideoVAE 共 1 个模型实现资源。

项目	SOTA！平台项目详情页
VideoVAE	前往SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/videovae

DVDGAN

DVDGAN是一个建立在最先进的BigGAN架构上的复杂人类行为的生成性视频模型，同时引入了可扩展的、针对视频的生成器和鉴别器架构。其生成器不包含前景、背景或运动（光流）等明确先验；相反，依靠一个高容量的神经网络以数据驱动的方式来学习这些。虽然DVD-GAN包含序列组件（RNNs），但它在时间和空间上都不是自回归的。换句话说，每一帧的像素并不直接取决于视频中的其他像素，就像自动回归模型或每次生成一帧的模型那样。

图10. DVDGAN架构

DVD-GAN通过使用两个鉴别器来解决视频生成中的尺度scale问题：空间鉴别器DS和时间鉴别器DT。DS通过随机抽取k个全分辨率的帧并对其进行单独评判，来评判单帧内容和结构。DS的最终得分是每一帧的得分之和。时间鉴别器DT必须向G提供学习信号，以产生运动（这不是由DS评估的）。为了使模型具有可扩展性，对整个视频应用一个空间降采样函数φ(-)，并将其输出反馈给DT。这导致了一种结构，即鉴别器不处理整个视频的像素，因为DS只处理k×H×W像素，DT只处理T×H2×W2。对于一个128×128分辨率的48帧视频来说，这就把每个视频需要处理的像素数从786432减少到327680：减少58%。尽管有这样的分解，鉴别器的目标仍然能够惩罚几乎所有的不一致，而这些不一致会被判断整个视频的鉴别器所惩罚。DT判断整个视频长度上的任何时间差异，而DS可以判断任何高分辨率的细节。DVD-GAN鉴别器目标唯一不能反映的细节是2×2窗口内像素的时间演变。DVD-GAN的DS类似于MoCoGAN中的每一帧判别器DI。然而，与MoCoGAN类似的DT着眼于全分辨率视频，而DS是DVD-GAN中高分辨率细节的唯一学习信号来源。由于这个原因，当φ不是身份时，DS是必不可少的，这与MoCoGAN不同，在MoCoGAN中，额外的每帧判别器不那么关键。

G的层常数对于64×64的视频来说是[8, 8, 8, 4, 2]，对于128×128来说是[8, 8, 8, 4, 2, 1]。第i层的宽度由ch和第i个常数的乘积给出，在G的残差网络之前的所有层都使用初始层的乘积，把它和ch的乘积称为ch0。对于64×64分辨率的视频，DVD-GAN中的ch为128，否则为96。对于64×64分辨率的视频，DT和DS的相应ch列表为[2, 4, 8, 16, 16]，对于128×128的视频，则为[1, 2, 4, 8, 16, 16]。G的输入包括一个高斯潜在噪声z∼N（0, I）和一个所需类别y的学习线性嵌入e(y)，两个输入都是120维的向量。G开始计算[z; e(y)]到[4, 4, ch0]形张量的仿射变换（在图10中表示为1×1卷积）。[z; e(y)]被用作整个G的所有类别条件下的批量归一化层的输入。然后将其作为卷积门控递归单元的输入（在我们想要生成的每一帧），该单元对输入x_t和先前输出h_t-1的更新规则如下

在这些方程中，σ和ρ分别是元素的sigmoid和ReLU函数。括号用于表示特征串联。这个RNN每帧unrolled一次。在这里，时间维度与批处理维度相结合，因此每一帧都独立地通过这些块进行。这些区块的输出的宽度和高度尺寸都是双倍的（我们在第一个区块中跳过了上采样）。这样重复多次，将一个RNN+残差组的输出作为下一个组的输入，直到输出的张量具有所需的空间尺寸。在计算批量归一化统计时，不在时间维度上进行还原。这可以防止网络利用批量归一化层在各时间段之间传递信息。空间判别器DS的功能与BigGAN的判别器几乎相同，在图11中给出了残差块的概述。对均匀采样的k个帧（默认为k=8）中的每一个计算得分，DS的输出是每帧得分的总和。时间鉴别器DT有一个类似的架构，但用一个2×2的平均集合下采样函数φ对真实或生成的视频进行预处理。此外，DT的前两个残差块是三维的，其中每个卷积都被一个内核大小为3×3×3的三维卷积所取代。其余架构与BigGAN一致。

图11. G和DS/DT的残差块

当前 SOTA！平台收录 DVDGAN 共1个模型实现资源。

项目	SOTA！平台项目详情页
DVDGAN	前往SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/dvd-gan-fp

SWGAN

在生成式模型中，Wasserstein距离（WD）是衡量生成的数据分布与真实数据分布之间差异的一个有效指标。然而，对高维分布的WD进行近似计算是非常困难的。相比之下，sliced Wasserstein distance（SWD）将高维分布分解为多个一维边际分布，因此更容易近似。本文介绍了原始和双重SWD的新的近似方法，与传统的SWD近似方法使用大量的随机投影不同，这种新近似方法使用少量的参数化正交投影以端到端深度学习的方式近似SWD。作为SWD近似的具体应用，设计了两类可微分的SWD模块，用于生成框架—自动编码器（AE）和生成对抗网络（GAN），算法分别见Algorithm2和4。

SWD的基本思想是将高维分布的挑战性估计分解为多个一维分布的较简单估计。PX, PY分别表征随机变量X, Y的概率分布。对于单位向量θ∈S^(n-1)，定义相应的内积π_θ(x)=θ^T x和边际分布π∗_θP_X = P_X ◦π^(-1)_θ。基本SWD为

令FX，FY分别表征对应于PX，PY的累积分布函数（CDFs），那么对于所有的θ，存在一个唯一的封闭形式解决方案

可以得到

SWD可以改进生成式建模，特别是在处理图像和视频等高维分布的样本时。给定i∈N，在目标分布PY的指导下，定义第i个计算块，将输入分布PXi转移到PXi+1，如下所示

由于基于AE的生成模型需要在编码器上强加一个先验分布，所以可以对上式进行改进以使其可学习并将其纳入编码器。通过将原始SWD块（层）堆叠在标准编码器之上，为传统的自动编码器提供了生成能力。编码器Q是由标准编码网络E和m个原始SWD块S_(p,1),. . . , S_(p,m)，即Q = S_(p,m)◦. .◦S_(p,1)◦E组成的。通过将E中的潜在编码送入原始SWD块S_(p,1),. . . , S_(p,m)，潜在编码的分布被转移到先验分布中。作者在文章中具体选择了高斯分布作为先验分布，因为它经常被用于基于AE的模型。

WGAN的成功表明，dual WD可以作为GAN模型判别器的一个合适目标。为了保持这种设置的优点，同时避免对高维分布施加k-Lipschitz约束，作者建议可以使用dual SWD来代替。dual SWD为

由上式，引入m个双SWD块S_(d,1),. . . 图像数据分布是由低维流形支持的。由于这个原因，经典的GAN鉴别器将其输入数据编码为低维特征图。改进的鉴别器由编码网络E和dual SWD块S_(d,s)组成，即D = [S_(d,1) ◦E, . . . , S_(d,m) ◦E] 。最终，通过对SWD块S_(d,1),...,S_(d,m)的输出平均值求和来估计dual SWD的S^(n-1)的积分。

当前 SOTA！平台收录 SWGAN 共 1 个模型实现资源。

项目	SOTA！平台项目详情页
SWGAN	前往SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/pg-swgan-3d

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

视频生成经典模型资源（一）：TGAN、VGAN、MoCoGAN、SVG、vid2vid、VideoVAE、DVD-GAN-3

ModelScope模型即服务

热门文章

最新文章

相关电子书