Sora：一个具有灵活采样维度的扩散变压器-阿里云开发者社区

Sora：一个具有灵活采样维度的扩散变压器

2024-03-03 77

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Sora：一个具有灵活采样维度的扩散变压器

生成模型领域也取得了重大进展。其中，Sora是一种具有灵活采样维度的扩散变压器，被广泛认为是实现高质量视频生成的有力工具。那么，Sora究竟是何方神圣？它有哪些独特之处？又采用了哪些技术来实现其卓越的性能呢？

Sora是一个具有灵活采样维度的扩散变压器，如图4所示。它有三个部分：（1）时空压缩器首先将原始视频映射到潜在空间。（2）ViT然后处理标记化的潜在表示，并输出去噪的潜在表示。（3）类似CLIP[26]的条件机制接收LLM增强的用户指令和可能的视觉提示，以指导扩散模型生成风格化或主题化的视频。经过多次去噪，生成视频的潜在表示被获得，然后通过相应的解码器映射回像素空间。
在深入了解Sora的技术细节之前，我们先来了解一下其背后的核心理念。Sora的设计原则是拥抱视觉数据多样性，实现从原始尺寸上训练、理解和生成视频及图像。与传统方法不同，Sora可以在原始尺寸上处理不同分辨率和宽高比的图像和视频，这使得它在生成更真实和吸引人的视频方面具有显著优势。此外，Sora还强调了在训练数据中的多样性对于生成高质量结果的重要性。

数据预处理：Sora采用统一视觉表示，旨在处理具有不同持续时间、分辨率和宽高比的图像和视频。为此，它首先将视频压缩到较低维度的潜在空间，然后将表示分解为时空补丁。这种方法可以有效地处理不同尺寸和分辨率的视频，同时保留原始视频的时空信息。
视频压缩网络：Sora的视频压缩网络（或视觉编码器）通过降低输入数据的维度，尤其是原始视频，来输出一个在时间和空间上都被压缩的潜在表示。根据技术报告中的参考文献，压缩网络是基于VAE或向量量化-VAE（VQ-VAE）构建的。这种方法可以在保持原始宽高比的同时，有效地将视觉数据映射到统一且固定大小的潜在空间。
时空潜在图块：在压缩网络部分，还有一个关键问题是如何处理潜在空间维度的变化性。为了解决这个问题，Sora采用了一种叫做时空潜在图块的方法。这种方法不仅仅分析静态帧，还考虑帧间的运动和变化，从而捕捉视频的动态方面。通过这种方法，Sora能够在处理不同视频类型的潜在特征块或图块时，保持纵横比的可变分辨率图像或视频。

条件机制：Sora的条件机制类似于CLIP，它接收LLM增强的用户指令和可能的视觉提示，以指导扩散模型生成风格化或主题化的视频。这种方法使得Sora具有很强的生成能力，可以根据用户的需求生成不同风格和主题的视频。

Sora：一个具有灵活采样维度的扩散变压器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Sora：一个具有灵活采样维度的扩散变压器

热门文章

最新文章

相关课程

相关电子书

相关实验场景