OpenAI Sora怎么用？OpenAI 全新发布文生视频模型 Sora，功能有多强大？将带来哪些影响？

2024-02-27 279

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： “60s超长长度”、“单视频多角度镜头”，还有那个最核心的，“世界模型”

OpenAI Sora怎么用？OpenAI 全新发布文生视频模型 Sora，功能有多强大？将带来哪些影响？（2024年最新小白教程）

昨晚凌晨，跟朋友们打完LOL，准备倒头就睡。

临睡前，刷了一眼X。

然后，特么的，看到了一个消息，能给我震惊成傻逼的消息：

OpenAI没有发布GPT-5，反而进军了新的领域：文生视频。OpenAI新发布的文生视频模型Sora

不仅像DALLE-3有很好的长文本理解能力，而且可以生成长达分钟级别的高质量视频，从官方示例上看，生成的视频效果确实惊艳。

OpenAI，发他们的文生视频大模型，Sora了。。。。。

而且，是强到，能震惊我一万年的程度。。。

https://openai.com/sora

如果非要用三个词来总结Sora，那就是“60s超长长度”、“超强语义理解”和“世界模型”

我的脑海中，突然冒出了《三体》中杨冬的一句话：

“物理学，不存在了” 套用这句话。

那就是。

“现实，不存在了”

文本、图片都已经被AI攻占，而现在，AI视频，这个人类最后的最坚固的堡垒，在OpenAI的Sora攻势下，也已经很难再分清，AI和现实的界限了。

什么以前的AI视频工作流，全部成了往日泡影，全都滚犊子吧。

说回那三个最核心的特点：

“60s超长长度”、“单视频多角度镜头”，还有那个最核心的，“世界模型”

一. 60s超长长度

在一众AI视频，还挣扎在4s连贯性的边缘，OpenAI，直接说：

劳资支持，60s，都TM跪下。

就，太特么吓人了...

看这个case。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。
微信图片_20240227130810.png

视频链接：https://midjourney.wxmyxz.com/home/#/video?from=SR360

60s，一镜到底，而且不止主人物稳定，连特么背景里面的人物，都稳定的难以置信。从大中景无缝切换到脸部特写。

这不是我对于AI视频这个浅薄的理解能解释的了的。

我完全不知道是如何能实现出来的，官网的解释是：

OpenAI究竟是怎么做到的？根据官网介绍，「通过一次性为模型提供多帧的预测，我们解决了一个具有挑战性的问题。

显然，这个王炸级技术有着革命般的意义，连Sam Altman都沉迷到不能自拔！

一位戴着尖顶帽，身披绣有白色星星的蓝色长袍的巫师正在施法，他的一只手射出闪电，另一只手中拿着一本旧书。

借助于对语言的深刻理解，Sora能够准确地理解用户指令中所表达的需求，把握这些元素在现实世界中的表现形式。

也因此，Sora创造出的角色，能够表达丰富的情感！

它所制作出的复杂场景，不仅可以包括多个角色，还有特定的动作类型，以及对对象和背景的精确细节描绘。

看，下图中人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽，完全没有AI味儿。

此外，Sora还能在同一视频中设计出多个镜头，同时保持角色和视觉风格的一致性。

要知道，以前的AI视频，都单镜头生成的。

而这次OpenAI能在多角度的镜头切换中，就能实现对象的一致性，这不得不说是个奇迹！

这种级别的多镜头一致性，是Gen 2和Pika都完全无法企及的……

举个例子：「雪后的东京熙熙攘攘。镜头穿过繁忙的街道，跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。」

Sora根据这个提示所呈现的，便是东京在冬日里梦幻的一幕。

无人机的镜头跟随一对悠闲散步的情侣穿梭在街道上，左侧是车辆在河岸路上行驶的声音，右侧是顾客在一排小店之间穿梭的景象。

可以说，Sora的效果已经领先到了恐怖的级别，完全跳出了用冷兵器短兵相接的时代，其他AI视频被彻底干趴。

被彻底干趴。

二、世界模型成真了？？

最最最可怕的一点来了，Sora身上，竟已经有了世界模型的雏形？

通过观察大量数据，它竟然学会了许多关于世界的物理规律。

下面这个片段太令人印象深刻了：prompt中描绘了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」，同时描述了怪物的动作和视频的氛围。

随后，Sora就创造了一个类似皮克斯作品的生物，它似乎融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。

让人震惊的是，Sora对于毛发纹理物理特性的理解，准确得令人惊掉下巴！

想当初，在《怪兽公司》上映时，皮克斯为了创造出怪物在移动时超级复杂的毛发纹理，可是费了好大一番功夫，技术团队直接连肝几个月。

而这一点，Sora轻而易举地就实现了，而且从没有人教过它！

三、唯一真正的视频生成工作

业内大佬张启煊评价道，「Sora是我目前看到唯一跳脱出空镜头生成、真正的视频生成工作。」

在他看来，目前看来Sora跟Pika、Runway是有代差的，视频生成领域终于被OpenAI支配。或许某天3D视频领域，有朝一日也能体会到这种恐惧。

网友们都被震惊到失语：「下一个十年会是疯狂的十年。」

「都结束了，我的饭碗要丢了。」

OpenAI就是没法停下干死初创公司的脚步，是吗？

「好莱坞即将发生核爆」。

四、技术介绍

Sora是一种扩散模型，它能够通过从一开始看似静态噪声的视频出发，经过多步骤的噪声去除过程，逐渐生成视频。通过让模型能够预见多帧内容，团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似，Sora采用了Transformer架构，从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——「patches」，每个「patches」相当于GPT中的一个「token」。

这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer，覆盖了不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的研究成果，采用了DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。

除了能根据文本指令生成视频外，这款模型还能将现有的静态图像转化成视频，精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora为理解和模拟现实世界的模型奠定了基础，对此OpenAI认为这是实现通用人工智能（AGI）的重要步骤。

作品欣赏：

在雪地草原上，几只巨大的羊毛猛犸象缓缓前行，它们长长的毛皮在微风中轻轻飘扬。远处是雪覆盖的树木和雄伟的雪山，午后的阳光穿透薄云，给这个场景增添了一抹温暖的光彩。低角度的拍摄令这些庞大的毛茸茸动物显得尤为壮观，景深效果引人入胜。

五、后续

Sora目前还未正式对外上线，后续估计先在GPT Plus覆盖，后续sora 肯定和文生图一样先给 PLUS 用户使用，所以可以预计未来开放后，很多人需要开Plus 才能去体验 sora。

如果大家有兴趣可以看博主的相关升级文章：
http://fangze666.com/

OpenAI Sora怎么用？OpenAI 全新发布文生视频模型 Sora，功能有多强大？将带来哪些影响？