TGANv2、VideoGPT、DVG…你都掌握了吗？一文总结视频生成必备经典模型（四）-阿里云开发者社区

TGANv2、VideoGPT、DVG…你都掌握了吗？一文总结视频生成必备经典模型（四）

2023-05-18 442

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： TGANv2、VideoGPT、DVG…你都掌握了吗？一文总结视频生成必备经典模型

StyleGAN-v

常用于视频生成的Conv3D层有很多限制，比如计算成本相当高。规避对3D卷积的需求的一个方法是将视频作为一个具有时间坐标的连续信号。为了使这种方法奏效，必须解决几个问题：首先，现有的基于正弦/余弦的位置编码是循环的，不依赖于输入，这对视频是不利的，因为我们希望不同的视频在帧之间有不同的运动，而且视频不应该循环。其次，对完整视频的训练在计算上是很昂贵的，因此生成器必须能够从每个片段只有几帧的稀疏输入中学习。最后，鉴别器需要处理以不同时间距离采样的帧，以应对稀疏的输入问题。总之，StyleGAN-V不是自回归的，不使用Conv3D，而是在稀疏的输入上进行训练，并且对图像和视频使用单一的鉴别器而不是两个单独的鉴别器。

StyleGAN-v是在StyleGAN2的基础上建立的模型，并为视频合成重新设计其生成器和鉴别器网络，只做了最小的修改。在StyleGAN2的生成器上所做的唯一修改是将连续运动编码v_t与它的恒定输入张量连接起来。将这些特征按通道串联成一个全局视频描述符h，并据此预测真/假。以帧之间的时间距离δxi = ti+1 - ti作为D的条件，以使它更容易在不同的帧率上操作。

1）生成器结构。

生成器由三个子模块组成：内容映射网络Fc、运动映射网络Fm、Synthesis网络 S。Fc和S从StyleGAN2中照搬，只对S进行了修改，将运动编码v_t拼接到它的恒定输入张量上。通过对一些内容的噪声进行采样并通过映射网络得到视频的风格代码，从而生成一个样本视频。然后，对于每个时间段取样一个噪声向量序列，该序列对应于足够长的等距时间段以覆盖目标时间段，通过两个无填充的Conv1D层，并从输出序列中对应于目标时间段左右两个随机时间段的两个向量中计算出非循环位置编码。由此产生的运动编码被插入到生成器中。

图12. 生成器架构：在StyleGAN2生成器的合成网络S之上所做的唯一修改是将运动编码与常量输入张量相连接。S使用内容编码w和运动编码v_t生成帧x_t

2）非周期性的位置编码。

StyleGAN-V的位置编码基本上是一个转换的正弦函数，具有可学习的波幅、周期、相位，首先预测来自目标时间段左侧的 "原始 "运动编码。然而，这本身就导致了不相干的运动编码，这就是为什么他们通过减去左右编码之间的线性插值来缝合，以便在每个离散的时间步长（0，1，2，...）将嵌入归零。这在一定程度上限制了位置编码的表现力，所以为了弥补这一点，将左右运动矢量之间的线性插值乘以一个可学习矩阵再加回去。它对向量进行归一化处理，然后用一个学习到的参数对其进行归一化处理。

3) 鉴别器结构。

鉴别器独立地从每一帧中提取特征，将结果连接起来，并从该张量中预测出一个单一的真/假逻辑。为了能够处理稀疏的输入，鉴别器以帧之间的时间距离为条件。这些距离通过位置编码进行预处理，然后通过MLP进行处理，并串联成一个单一的向量，用于调节每个鉴别器块第一层的权重，以及最后一层的投影条件（点乘）。

图13. 每段视频k=3帧的鉴别器结构。在StyleGAN2鉴别器的基础上所做的唯一变化是在16个分辨率下串联激活通道，并在帧间时间距离的位置嵌入上调节模型

4) 稀疏训练的隐含假设。

在一个视频中，帧的变化不大（人脸、延时摄影等）。因此，仅仅几帧就包含了足够的信息来了解整个视频的情况。例如，如果你看过两帧，你就已经看到了它们的全部。

当前 SOTA！平台收录 StyleGAN-v 共1个模型实现资源。

模型	SOTA！平台模型详情页
StyleGAN-v	前往SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/stylegan-v

Video Diffusion Models

生成时间上连贯的高保真视频是生成式模型研究的一个重要里程碑。Video Diffusion Models 是一个用于视频生成的扩散模型，它是标准图像扩散架构的自然扩展，能够从图像和视频数据中进行联合训练，从而减少mini-batch梯度的方差并加快优化速度。为了生成长的和更高分辨率的视频，Video Diffusion Models中引入了一种新的条件采样技术，用于空间和时间上的视频扩展，比以前提出的方法表现得更好。

在图像生成TOP模型的文章中，我们介绍过Unet，这是一个神经网络架构，构建为一个空间下采样通道，然后是一个空间上采样通道，与下采样通道的激活有 skip connections 。该网络是由二维卷积块层构建的。Video Diffusion Models将这种图像扩散模型架构扩展到视频数据，由固定数量的帧块给出，使用一种特殊类型的3D U-Net，在空间和时间上进行因子化。首先，修改了图像模型结构，将每个二维卷积改变为纯空间的三维卷积，例如，将每个3x3卷积改变为1x3x3卷积（第一个索引视频帧，第二个和第三个索引空间高度和宽度）。每个空间注意力块中的注意力仍然是对空间的注意力。也就是说，第一轴被当作一个batch axis。其次，在每个空间注意力块之后，插入一个时间注意力块，对第一个轴进行注意力，并将空间轴视为批处理轴。在每个时间注意力块中使用相对位置嵌入，以便网络能够以不需要视频时间的绝对概念的方式区分帧的排序。图24中可视化了模型的结构。

图24. 扩散模型中xˆθ的三维U-Net结构。每个区块代表一个4D张量，其轴标记为帧×高×宽×通道，以时空因子的方式处理。输入为噪声视频z_t、调节c和log SNR λ_t。下采样/上采样块通过每个K块调整空间输入分辨率的高度×宽度，系数为2。通道数用通道乘法器M1、M2、...、MK指定，上采样通道与下采样通道有skip connections连接

当前 SOTA！平台收录 Video Diffusion Models 共2个模型实现资源。

项目	SOTA！平台项目详情页
Video Diffusion Models	前往SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/video-diffusion-models

前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问：在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ，即可前往「SOTA！模型」平台，查看关注的模型是否有新资源收录。

移动端访问：在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」，关注 SOTA！模型服务号，即可通过服务号底部菜单栏使用平台功能，更有最新AI技术、开发资源及社区动态定期推送。

TGANv2、VideoGPT、DVG…你都掌握了吗？一文总结视频生成必备经典模型（四）

StyleGAN-v

Video Diffusion Models

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景