生成模型领域也取得了重大进展。其中,Sora是一种具有灵活采样维度的扩散变压器,被广泛认为是实现高质量视频生成的有力工具。那么,Sora究竟是何方神圣?它有哪些独特之处?又采用了哪些技术来实现其卓越的性能呢?
Sora是一个具有灵活采样维度的扩散变压器,如图4所示。它有三个部分:(1)时空压缩器首先将原始视频映射到潜在空间。(2)ViT然后处理标记化的潜在表示,并输出去噪的潜在表示。(3)类似CLIP[26]的条件机制接收LLM增强的用户指令和可能的视觉提示,以指导扩散模型生成风格化或主题化的视频。经过多次去噪,生成视频的潜在表示被获得,然后通过相应的解码器映射回像素空间。
在深入了解Sora的技术细节之前,我们先来了解一下其背后的核心理念。Sora的设计原则是拥抱视觉数据多样性,实现从原始尺寸上训练、理解和生成视频及图像。与传统方法不同,Sora可以在原始尺寸上处理不同分辨率和宽高比的图像和视频,这使得它在生成更真实和吸引人的视频方面具有显著优势。此外,Sora还强调了在训练数据中的多样性对于生成高质量结果的重要性。
- 数据预处理:Sora采用统一视觉表示,旨在处理具有不同持续时间、分辨率和宽高比的图像和视频。为此,它首先将视频压缩到较低维度的潜在空间,然后将表示分解为时空补丁。这种方法可以有效地处理不同尺寸和分辨率的视频,同时保留原始视频的时空信息。
- 视频压缩网络:Sora的视频压缩网络(或视觉编码器)通过降低输入数据的维度,尤其是原始视频,来输出一个在时间和空间上都被压缩的潜在表示。根据技术报告中的参考文献,压缩网络是基于VAE或向量量化-VAE(VQ-VAE)构建的。这种方法可以在保持原始宽高比的同时,有效地将视觉数据映射到统一且固定大小的潜在空间。
- 时空潜在图块:在压缩网络部分,还有一个关键问题是如何处理潜在空间维度的变化性。为了解决这个问题,Sora采用了一种叫做时空潜在图块的方法。这种方法不仅仅分析静态帧,还考虑帧间的运动和变化,从而捕捉视频的动态方面。通过这种方法,Sora能够在处理不同视频类型的潜在特征块或图块时,保持纵横比的可变分辨率图像或视频。
- 条件机制:Sora的条件机制类似于CLIP,它接收LLM增强的用户指令和可能的视觉提示,以指导扩散模型生成风格化或主题化的视频。这种方法使得Sora具有很强的生成能力,可以根据用户的需求生成不同风格和主题的视频。