引言
以ChatGPT闻名海外的OPENAI,最近推出首个文本视频生成模型——Sora,其效果极其流畅程度令人叹为观止!
先来感受一下Sora依据文本生成的视频:
提示词: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about. 【一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。】
Sora根据提示词,生成60s镜头,不仅主要人物动作流畅,切近镜头时还可以看到主角的脸上皮肤细节,后面的场景还可以自如切换。这里,想说一个该视频的不足,视频右方的背景人物感觉很多脸感觉是空白的,看起来有一丢丢诡异;然后,有一个突然切近镜头的转换有一点不太自然。整体的流畅度以及视频的可观赏性还是有的!
提示词:A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.【一只猫叫醒熟睡的主人,要求吃早餐。主人试图忽视这只猫,但猫尝试了新的策略,最后主人从枕头下拿出秘密藏匿的零食,让猫再呆一会儿。】
相比于上一个60s的长镜头,我个人感觉这个8s的镜头做的更好。首先是猫咪的瞳孔,它是符合常识的!这一点很细节!而且,女生的神态变化和猫咪的动作很贴,感觉真的很像一个真实发生的场景!但缺点是,它好像不是特别贴提示词。
提示词:The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.【镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照在SUV上飞驰。土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。】
这个20s的视频首先它很有光影感,而且汽车影子是随着汽车移动的,但是个人感觉车扬起来的土差点意思。
Sora凭什么这么强大呢?
根据OpenAI给出的技术报告,Sora的技术特色:
- 将视觉数据转换为Patch
- 视频压缩网络
- 时空潜在补丁
- 转换变换器以生成视频
- 变化的持续时间、分辨率、宽高比
- 对语言的理解
- 图像、视频、文本均可作为提示词
- 视频拼接
- 图像生成能力
- 涌现的模拟能力
就像OpenAI自己在官网说的:我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界交互的问题。
结论
目前,Sora的对物理世界的模拟还在初级阶段,感觉已经很不可思议了!但是,对于很多人说,未来可能是输入小说直接生成对应的视频图像我仍然持保留态度。因为自我观点,Sora只是通过大量输入数据的学习,对文本处理后进行图像模拟,还远远达不到对真实物理世界的智能理解。
最后
虽然目前Sora还在没有对所有用户全部开放,但照OpenAI的开发速度,Sora应该很快就会向所有用户开放!
虽Sora目前还未正式上线,预计后续会覆盖GPT Plus用户。