OpenAI Sora 关键技术详解：揭秘时空碎片 (Spacetime Patches) 技术

2024-02-26 282

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches，作者认为该技术通过创新的时空数据建模方法，让 Sora 学会预测时空维度上事件和对象的变化、运动和互动，从而建立起视频世界的物理模型，生成极其逼真的视频。

编者按：近日，OpenAI 发布其首个视频生成模型 “Sora”，该模型生成的视频内容可以呈现出多个角色、特定动作以及复杂场景，为构建能够理解和模拟现实世界的人工智能模型奠定了基础。

本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches，作者认为该技术通过创新的时空数据建模方法，让 Sora 学会预测时空维度上事件和对象的变化、运动和互动，从而建立起视频世界的物理模型，生成极其逼真的视频。

这确实是生成模型领域的里程碑，也是一个 AGI 的里程碑。编者相信，没准有一天，哆啦 A 梦的二次元口袋照相机也可能成为现实。

人工智能如何将静态图像转换为动态、逼真的视频？OpenAI 的 Sora 通过创新性地使用时空碎片技术（spacetime patches）给出了一个答案。

在快速发展的生成模型领域，OpenAI 的 Sora [1] 是一个重要的里程碑，有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术 [2] 以期激发新一代模型在图像、视频和 3D 内容创建方面的潜力。

OpenAI 使用以下提示词生成生成了一段视频：A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过 Sora 生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试，完整模型尚未完全向公众发布。

01 Sora 的独特方法如何改变视频生成的方式

在生成模型（generative models）领域的发展过程中，我们见证了从生成式对抗网络（GAN）到自回归（auto-regressive）和扩散模型（diffusion models）等多种方法的演变，它们都有各自的优势和局限性。Sora 通过采用新的模型技术和凭借其高度灵活性带来了范式转变，能够处理多种多样的视频时长（duration）、宽高比（aspect ratio）和分辨率（resolution）。

Sora 结合了扩散原理（diffusion）和 transformer 架构，提出了 diffusion transformer model，并具有如下特性：

文字到视频：这种功能我们应该已经见到过很多次了
图像到视频：为静态图像赋予生命
视频到视频：将视频的风格转换为其他样式
修改视频时间：扩展和缩短视频
创建无缝循环视频：创建看起来无限循环的平铺视频（译者注：在视频编辑领域，Tile（平铺）是一个专业术语，指的是将一个视频片段复制并拼接，重复排列形成一个新的视频画面的技术。）
图像生成：虽然只是单帧静止画面，但是称得上一部 “单帧电影”(分辨率高达 2048 x 2048)
生成任何分辨率的视频：从 1920 x 1080 到 1080 x 1920，应有尽有
模拟虚拟世界：像 Minecraft 和其他视频游戏
创建视频：最长 1 分钟，包含多个短视频

想象一下，你正在一个厨房里。像 Pika [3] 和 RunwayML [4] 这样的传统视频生成模型就像严格遵循食谱的厨师，他们能够制作美味佳肴（视频），但受限于他们所知的食谱（算法）。这些 “厨师” 可能专攻制作蛋糕（短视频）或意大利面（某类型视频），使用特定的 “食材”（数据格式）和 “烹调技术”（模型架构）。

相比之下，Sora 像是全能大厨，对食品风味的构成与变化了如指掌。Sora 不仅能遵循食谱，还持续创造新的菜式。 数据和模型架构的灵活性，让 Sora 能生产出一系列高质量的视频，堪比大师厨艺的多变与精湛。

02 探索 Sora 秘方的核心：Spacetime Patches 技术

Spacetime Patches 是 Sora 创新的核心，它建立在谷歌 DeepMind 早先对 NaViT [5] 和 ViT（Vision Transformers）的研究基础之上，其基础是一篇 2021 年的论文《An Image is Worth 16x16 Words [6]》。

“Vanilla” Vision Transformer 架构 —— 图片来源：Dosovitskiy 等，2021 [6]

在传统的 Vision Transformers 中，我们使用一系列图像 "patches" 来训练模型进行图像识别，而不是像训练 language transformers 那样使用单词来进行训练。通过 "patches"，我们可以摆脱卷积神经网络对图像处理的束缚。

如何将帧 / 图像划分为 patches —— 图片来源：Dehghani 等，2023 [5]

然而，Vision transformers 受到图像训练数据的限制，这些数据的大小和长宽比都是固定的，这就限制了图像的质量，并需要对图像进行大量的预处理。

切割视频时态数据的可视化 —— 资料来源：kitasenjudesign [7]

通过将视频处理为 patches 序列，Sora 保持了原始的长宽比和分辨率，这与 NaViT 处理图像的方式类似。这种保留对于捕捉视觉数据的真实本质至关重要，可使模型从更准确的世界表征中学习，从而赋予 Sora 其近乎魔法的准确性。

Spacetime Patching 处理过程的可视化 —— 图片来源：OpenAI（Sora）

通过这种方法，Sora 可以高效地处理各种视觉数据，而无需调整大小或进行填充等预处理步骤。这种灵活性确保了每一条数据都有助于模型的理解，就像厨师使用各种配料来提升菜肴的风味一样。

通过 Spacetime Patching 技术详细而灵活地处理视频数据，为 Sora 拥有精确的物理模拟和三维一致性等复杂特性奠定了基础。 这些能力对于创建不仅看起来逼真，而且符合世界物理规则的视频至关重要，让我们看到了人工智能创建复杂、动态视觉内容的潜力。

（Sora 怎么使用？

目前 openai 官方还未开放 sora 灰度，不过根据文生图模型 DALL·E 案例，一定是先给 ChatGPT Plus 用户使用，需要注册或者升级可以看这个教程: https://mp.weixin.qq.com/s/SvD2YIBvYmVif6UJ1qvwaw（一分钟完成升级）

03 喂养 Sora：多样化数据在训练中的作用

生成模型的表现与训练数据的质量和多样性密不可分。 现有的视频模型传统上是在更受限的数据集上训练的，时长较短，目标较窄。

Sora 的训练数据集广泛多样，包含不同长度、分辨率和长宽比的视频与图像。其重现 Minecraft 等数字世界的能力 [8]，极有可能吸收了来自 Unity、Unreal 等系统的模拟镜头数据，以捕捉更丰富视角和风格的视频内容。这让 Sora 类似 GPT 语言模型，达到视频生成的 “全能” 境界。

丰富数据训练使 Sora 能够深刻理解复杂动力学，生成既多样又高质量的内容。 这种方法模仿了大语言模型在多样化文本上的训练方式，将类似理念应用于视觉数据，以获得通用能力。

使用可变 patches 的 NaVit vs. 传统的 Vision Transformers —— 图片来源：Dehghani 等，2023 [5]

正如 NaViT 模型通过将来自不同图像的多个 patches 打包到单个序列中，能够显著提高训练效率和性能一样，Sora 利用时空碎片（Spacetime Patching）实现了在视频生成场景中类似的生成效率。这种方法可以更有效地学习庞大的数据集，提高模型生成高保真视频的能力，同时与现有模型架构相比还可以显著降低所需的计算量。