OpenAI 的 ​Sora 技术报告详解

简介: OpenAI 的 ​Sora 技术报告详解

Sora 详细的技术报告发布了,相关从业者可能都需要看看。

里面有 Open AI的训练思路以及 Sora 详细的技术特性,我从里面找了一些要点,详细的可以去看完整内容。

简单来说 Sora 的训练量足够大也产生了类似涌现的能力。

技术特点

三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型(diffusion transformer)。

首先将视频压缩到一个低维潜在空间19中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着 Sora 训练计算量的增加,样本质量有了显著提升。

Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators

论文关键点

OpenAI 的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。这项研究特别关注于文本条件扩散模型,这些模型同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。研究中提到的最大模型 Sora 能够生成长达一分钟的高保真视频。以下是论文的一些关键点:

  1. 统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。
  2. 视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。
  3. 扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。
  4. 视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。
  5. 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。
  6. 图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
  7. 模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。
  8. 讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

这篇论文提供了对 Sora 模型的深入分析,展示了其在视频生成领域的潜力和挑战。通过这种方式,OpenAI 正在探索如何利用 AI 来更好地理解和模拟我们周围的世界。

相关文章
|
2月前
|
机器学习/深度学习 搜索推荐 算法
软件工程师,OpenAI Sora驾到,快来围观
软件工程师,OpenAI Sora驾到,快来围观
140 69
|
1月前
|
人工智能 缓存 搜索推荐
OPENAI DevDay 2024:推动AI技术的新边界
在今年的OPENAI DevDay活动中,尽管形式更为低调,但OpenAI依然带来了四项令人瞩目的技术创新,展示了其在推动人工智能开发者生态方面的持续努力,以及向更高效、用户友好的AI工具转型的决心。我将为大家详细介绍这些新产品
144 10
|
5月前
|
机器学习/深度学习 人工智能 算法
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
|
5月前
|
自然语言处理 Windows
ipxproxy静态住宅代理——助力OpenAI Sora的使用
​在OpenAI推出的Sora引领视频创作新时代的背景下,如何顺利注册并使用这一创新工具成为众多创作者关注的焦点。ipxproxy作为专业的代理服务商,提供了高效可靠的静态住宅代理IP解决方案,帮助用户顺利突破网络限制,轻松访问OpenAI Sora。
|
5月前
|
安全
IPXProxy静态住宅代理:注册OpenAI Sora的关键
​随着OpenAI发布的Sora引起了广泛关注,这款革命性的文本转视频生成工具给视频创作领域带来了质的飞跃。许多人都对Sora充满了好奇,希望能够注册并使用它来提升创作水平。然而,许多用户在注册过程中遇到了网络环境的问题,这时候静态住宅代理的优势就显现出来了。
|
6月前
|
存储 安全 机器人
【LLM】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
【5月更文挑战第13天】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
105 1
|
6月前
|
人工智能 安全
OpenAI拟携Sora进军好莱坞
OpenAI计划将AI视频生成工具Sora引入好莱坞,该工具能根据文本提示生成逼真视频,已引起业界关注。OpenAI与好莱坞影视公司及媒体高管会面,探讨Sora的合作潜力。Sora可能革新电影制作,提高效率,但也引发对传统创意工作者失业的担忧。面对机遇与挑战,OpenAI寻求与艺术家合作,平衡技术创新与行业影响。随着AI技术发展,电影制作将面临变革,需兼顾效率与工作者权益。
61 2
OpenAI拟携Sora进军好莱坞
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
2024 年最强?!深度剖析 OpenAI 最新 Sora 王炸模型!
2024 年最强?!深度剖析 OpenAI 最新 Sora 王炸模型!
61 1
|
6月前
|
编解码 人工智能
OpenAI官方: Sora不止是模型,更是世界模拟器!
OpenAI官方: Sora不止是模型,更是世界模拟器!
46 0
|
6月前
|
人工智能 编解码 自然语言处理
OpenAI的Sora深度解析
Sora是一款革命性的AI视频生成工具,技术上领先于先前的runway和pika。它具备60秒超长视频生成能力、多角度镜头切换及世界模型模拟能力,极大地降低了视频制作成本。Sora采用扩散型变换器模型,结合大型语言模型、Transformer架构及DALL·E的技术,能够根据文本指示生成高度真实的视频内容。此外,Sora还能生成高分辨率图像,为用户提供了一种高质量内容生成的新选择。Sora的技术原理和功能为视频内容制作和创意表达开辟了新的可能性,同时也为AI技术的未来应用指明了方向,特别是在人工通用智能(AGI)的发展上具有里程碑意义。
113 0
OpenAI的Sora深度解析