如何看待openai最新发布的sora?

简介: 如何看待openai最新发布的sora?

Sora多么牛逼多么真实之类的就不多谈了,只用一句话就能概括:随便拿视频中的一帧出来,效果都不亚于Dalle-3精心生成一张图片,而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且Sora本身其实也可以做图片生成,只是大材小用了。

这篇文章着重分析一下Sora背后的技术,希望能给大家带来启示。

OpenAI的宏大愿景

Sora不止步于视频生成工具,它的背后是OpenAI的宏大愿景:开发出能够让计算机理解我们世界的算法和技术,而OpenAI认为最有可能的技术之一是生成模型 (generative model)。OpenAI的blog中对Sora的定位正是“作为世界模拟器的视频生成模型”。这里是OpenAI 2016 (!) 年的一篇文章的原话 (https://openai.com/research/generative-models):

我们常常会忽略自己对世界的深刻理解:比如,你知道这个世界由三维空间构成,里面的物体能够移动、相撞、互动;人们可以行走、交谈、思考;动物能够觅食、飞翔、奔跑或吠叫;显示屏上能展示用语言编码的信息,比如天气状况、篮球比赛的胜者,或者1970年发生的事件。这样庞大的信息量就摆在那里,而且很大程度上容易获得——不论是在由原子构成的物理世界,还是由数字构成的虚拟世界。挑战在于,我们需要开发出能够分析并理解这些海量数据的模型和算法。生成模型是朝向这个目标迈进的最有希望的方法之一。要训练一个生成模型,我们首先会在某个领域收集大量的数据(想象一下,数以百万计的图片、文本或声音等),然后训练这个模型去创造类似的数据。这个方法的灵感来自于理查德·费曼的一句名言:“我所无法创造的,我也不能理解。”(即:要真正理解一个事物,你需要去创造它)这个方法的妙处在于,我们使用的神经网络作为生成模型,其参数的数量远远少于训练它们的数据量,这迫使模型必须发现并有效地吸收数据的精髓,以便能够创造出新的数据。

当年最先进的生成模型止步于DCGAN,2016年文章中的附图展示了当时的最先进效果:

而8年后的今天:

,时长01:00

这确实让人不得不相信AGI也许在21世纪确实可以实现。而对于OpenAI,实现AGI的一个途径便是开发出能够让计算机理解我们世界的算法和技术(生成模型),Sora是非常重要的一步,即作为世界模拟器的视频生成模型。

对Sora的分析

如果限制必须用一个词来展现OpenAI的最核心的技术,我觉得便是 scaling law - 即怎么样保证模型越大,数据越多,效果就越好。Sora也不例外。一句话概括Sora的贡献,便是:在足量的数据,优质的标注,灵活的编码下,scaling law 在 transformer + diffusion model 的架构上继续成立。在Sora的技术报告中(https://openai.com/research/video-generation-models-as-world-simulators)可以看出,OpenAI实现scaling law的想法其实很大程度上沿袭了大语言模型的经验。

足量的数据

训练Sora用了多少数据?不出意外,OpenAI在整个技术分析中一点都没有提数据的事情,这可太CloseAI了。但是鉴于内容的丰富性(比如甚至可以生成相当连贯一致的Minecraft游戏视频),我猜测很可能是大量的youtube视频,同时也不排除有合成数据(比如3D渲染等)。未来可能用整个youtube上的视频来训练视频生成模型,就和大家用Common Crawl训练大语言模型一样。

灵活的编码(visual patches)

在大语言模型的构建中,一个非常重要的部分便是它的tokenizer。tokenizer使得任何长度和内容的文本都能编码成语言模型可以直接处理(输入/输出)的对象,即embeddings。embeddings在Sora中的对应物称为 visual patches,tokenizer对应的是 video compression network,应该是某种 convolutional VAEs (文章没有说明是不是VQ-VAE)。

具体做法是用 video compression network (visual encoder) 首先将输入视频的时间和空间维度同时进行压缩,编码成一个和视频大小成正比的3D visual patch array,然后再将它按照某种顺序展开成1D array of patches,送入到transformer model中(具体方式应该是参考了https://arxiv.org/abs/2212.09748)。这样带来了不少好处:

1、灵活的分辨率。Sora可以生成1920x1080p(横屏) - 1080x1920p (竖屏)之间任何形状的视频。这也让OpenAI可以在早期使用低分辨率的视频来试错。

2、生成的视频的边框更加合理。OpenAI试过使用固定分辨率,这样带来一个很显然的问题——需要裁剪视频。这种数据的bias会被带入到模型中,促使模型生成很多内容在框外的视频。

优质的标注

和DALL·E 3一样,OpenAI用内部工具(很可能基于GPT4-v)给视频详尽的描述,提升了模型服从prompt的能力,以及视频的质量(还有视频中正确显示文本的能力)。我认为这是非常关键的一点,是OpenAI的杀手锏,对于视频尤其重要。原因很简单,可以从两个角度解释:(1)神经网络是个单射函数,拟合的是文本到视频的映射。视频的动态性非常高,也就是有很大的值域,为了把这个函数学好,需要定义域也很大很丰富,这就需要复杂的prompt了。(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对于prompt的理解和服从。

另外一个细节:这种详尽的描述会导致在使用时的bias——用户的描述都相对较短。和DALL·E 3一样,OpenAI用GPT来扩充用户的描述来改善这个问题,并提高使用体验和视频生成的多样性。

除了文本以外,Sora也支持图像或者视频作为prompt,支持SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频的编辑和继续创作。

Transformer + diffusion model 的架构

不算特别意外,OpenAI使用了transformer作为主要架构,结合diffusion model,幸好还不是端到端的autoregressive模型,否则太吓人了(不过这样一来,transformer在自然语言处理,图像视频生成,语音合成(最近amazon的工作BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data),科学计算(AlphaFold,GraphCast)等最困难的领域都孤独求败了。transformer架构在图像分类等领域还没有占领绝对优势很难说是不是因为任务太简单了或者数据太少了)。我觉得使用diffusion model的主要原因是diffusion model能够生成非常精细的细节,且可以玩出各种有趣的操作(比如SDEdit)。

架构上大概率参考了 Scalable Diffusion Models with Transformers,这是Sora技术分析中引用的文章,Sora部分透露出的细节和这篇文章比较吻合。Sora这次再次验证了Transformer架构能够胜任scaling law。

涌现现象

OpenAI每次提到scaling law时几乎都会伴随着emerging properties,这次也不例外,有以下几点(其实这里放的视频才是真正和目前视频生成区别开的,具体什么意思不用多说一看便知):

1、保证良好的 3D 空间性质(视角变换,物体遮挡等的合理性)

2、时间上物体的连贯性(不会因为遮挡或者时间流逝改变物体原有状态)

3、模拟现实物理的交互

4、连数字世界都可以模拟(这个生成的Minecraft视频真的惊到我了,一开始我还以为是参考视频,没想到是生成的)

然后让我们看看Sora之前的很多视频生成模型的水平(因为太糟甚至成了梗),高下立判 (声音和古怪内容警告):

Sora的缺陷

一句话:还不足以完全模拟所有现实中的物理过程,比如流体动力学(不过如果这个可以看视频就准确模拟出来就太可怕了,都让人怀疑世界是虚拟的了):

,时长00:08

一个真正的物理世界模型,估计给它放一段卫星云图视频,它就能把下面几天的气候变化给模拟出来,实现用视频生成模型预测天气,看股市曲线变化预测股价 lol,这样来说,OpenAI要走的路还有很长啊。

相关文章
|
7月前
|
编解码
OpenAI视频生成Sora技术简析
Sora是春节期间OpenAI发布的产品,主要是通过文字描述生成视频,通过大规模视频数据训练而成的生成模型,当前还没开放试用。
|
7月前
|
编解码 人工智能 计算机视觉
OpenAI 的 ​Sora 技术报告详解
OpenAI 的 ​Sora 技术报告详解
239 1
|
7月前
|
canal 人工智能 C++
OpenAI sora 是什么
Sora 能够根据文字描述生成长达一分钟的高清视频 Sora 的技术基础是 DALL-E 3 的技术,也就是 GPT4 现有的能力 Sora 的能力还有待提升,我们看到的视频是经过筛选的,并不是其典型能力
119 0
|
3月前
|
机器学习/深度学习 搜索推荐 算法
软件工程师,OpenAI Sora驾到,快来围观
软件工程师,OpenAI Sora驾到,快来围观
143 69
|
7月前
|
人工智能 编解码 自然语言处理
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
168 1
|
6月前
|
机器学习/深度学习 人工智能 算法
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
OpenAI发布全新AI视频模型Sora:引领视频创作新纪元
|
6月前
|
自然语言处理 Windows
ipxproxy静态住宅代理——助力OpenAI Sora的使用
​在OpenAI推出的Sora引领视频创作新时代的背景下,如何顺利注册并使用这一创新工具成为众多创作者关注的焦点。ipxproxy作为专业的代理服务商,提供了高效可靠的静态住宅代理IP解决方案,帮助用户顺利突破网络限制,轻松访问OpenAI Sora。
|
6月前
|
安全
IPXProxy静态住宅代理:注册OpenAI Sora的关键
​随着OpenAI发布的Sora引起了广泛关注,这款革命性的文本转视频生成工具给视频创作领域带来了质的飞跃。许多人都对Sora充满了好奇,希望能够注册并使用它来提升创作水平。然而,许多用户在注册过程中遇到了网络环境的问题,这时候静态住宅代理的优势就显现出来了。
|
7月前
|
人工智能 安全
OpenAI拟携Sora进军好莱坞
OpenAI计划将AI视频生成工具Sora引入好莱坞,该工具能根据文本提示生成逼真视频,已引起业界关注。OpenAI与好莱坞影视公司及媒体高管会面,探讨Sora的合作潜力。Sora可能革新电影制作,提高效率,但也引发对传统创意工作者失业的担忧。面对机遇与挑战,OpenAI寻求与艺术家合作,平衡技术创新与行业影响。随着AI技术发展,电影制作将面临变革,需兼顾效率与工作者权益。
63 2
OpenAI拟携Sora进军好莱坞
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
2024 年最强?!深度剖析 OpenAI 最新 Sora 王炸模型!
2024 年最强?!深度剖析 OpenAI 最新 Sora 王炸模型!
64 1