OpenAI 的 ​Sora 技术报告详解

简介: OpenAI 的 ​Sora 技术报告详解

Sora 详细的技术报告发布了,相关从业者可能都需要看看。

里面有 Open AI的训练思路以及 Sora 详细的技术特性,我从里面找了一些要点,详细的可以去看完整内容。

简单来说 Sora 的训练量足够大也产生了类似涌现的能力。

技术特点

三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型(diffusion transformer)。

首先将视频压缩到一个低维潜在空间19中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加,样本质量有了显著提升。

Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators

论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点:

  1. 统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。
  2. 视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。
  3. 扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。
  4. 视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。
  5. 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。
  6. 图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
  7. 模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。
  8. 讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

这篇论文提供了对 Sora 模型的深入分析,展示了其在视频生成领域的潜力和挑战。通过这种方式,OpenAI 正在探索如何利用 AI 来更好地理解和模拟我们周围的世界。

相关文章
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
如何看待openai最新发布的sora?
如何看待openai最新发布的sora?
|
2月前
|
canal 人工智能 C++
OpenAI sora 是什么
Sora 能够根据文字描述生成长达一分钟的高清视频 Sora 的技术基础是 DALL-E 3 的技术,也就是 GPT4 现有的能力 Sora 的能力还有待提升,我们看到的视频是经过筛选的,并不是其典型能力
62 0
|
2月前
|
人工智能 编解码 自然语言处理
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
|
1月前
|
人工智能 编解码 自然语言处理
OpenAI的Sora深度解析
Sora是一款革命性的AI视频生成工具,技术上领先于先前的runway和pika。它具备60秒超长视频生成能力、多角度镜头切换及世界模型模拟能力,极大地降低了视频制作成本。Sora采用扩散型变换器模型,结合大型语言模型、Transformer架构及DALL·E的技术,能够根据文本指示生成高度真实的视频内容。此外,Sora还能生成高分辨率图像,为用户提供了一种高质量内容生成的新选择。Sora的技术原理和功能为视频内容制作和创意表达开辟了新的可能性,同时也为AI技术的未来应用指明了方向,特别是在人工通用智能(AGI)的发展上具有里程碑意义。
34 0
OpenAI的Sora深度解析
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Sora是什么?Sora如何使用?带你快速了解OpenAI发布的Sora大模型
OpenAI自2015年成立以来,一直是人工智能领域的佼佼者。他们在深度学习和自然语言处理等多个方面取得了显著进展,GPT-4的推出更是巩固了他们在技术创新和应用开发上的领导地位。OpenAI的目标不仅仅是技术突破,更重要的是推动AI技术的安全和伦理发展,以造福人类社会。
Sora是什么?Sora如何使用?带你快速了解OpenAI发布的Sora大模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI Sora是什么?如何使用?新手小白必看
在AI领域不断迈向创新的今天,OpenAI引领了一系列令人瞩目的技术进步。今天,我想向大家介绍一个名为Sora的全新产品——一个革命性的视频创作工具,旨在为内容创作者、艺术家和企业提供前所未有的便利和创作能力。
122 0
OpenAI Sora是什么?如何使用?新手小白必看
|
1月前
|
人工智能
2024年重磅消息:来自OpenAI发布的视频生成模型Sora
2024年重磅消息:来自OpenAI发布的视频生成模型Sora
|
2月前
|
人工智能 编解码
OpenAI Sora怎么用?OpenAI 全新发布文生视频模型 Sora,功能有多强大?将带来哪些影响?
“60s超长长度”、“单视频多角度镜头”,还有那个最核心的,“世界模型”
OpenAI Sora怎么用?OpenAI 全新发布文生视频模型 Sora,功能有多强大?将带来哪些影响?
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 全新发布文生视频模型 Sora,功能有多强大?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,功能有多强大?将带来哪些影响?
|
2月前
|
人工智能 vr&ar
OpenAI发布Sora,引领多模态大模型再突破
OpenAI发布Sora,引领多模态大模型再突破
167 4
OpenAI发布Sora,引领多模态大模型再突破