【新智元导读】Meta新模型Make-A-Video,可以从文本一键生成视频了!AI的进展太神了……
给你一段话,让你做个视频,你能行吗?
Meta表示,我可以啊。
你没听错:使用AI,你也可以变成电影人了!
近日,Meta推出了新的AI模型,名字起得也是非常直接:做个视频(Make-A-Video)。
这个模型强大到什么程度?
一句话,就能实现「三马奔腾」的场景。
就连LeCun都说,该来的总是会来的。
视觉效果超炫
话不多说,咱们直接看效果。
俩袋鼠在厨房忙着做饭(做出来能不能吃另说)
近景:画师在画布上作画
大雨中漫步的二人世界(步伐整齐划一)
马在喝水
芭蕾舞女孩在摩天大楼跳舞
美丽的夏日热带海滩上,一只金毛在吃冰激凌(爪子已进化)
猫主子拿着遥控器在看电视(爪子已进化)
一只泰迪熊给自己画自画像
意料之外但情理之中的是,狗拿冰淇淋、猫拿遥控器以及泰迪熊画画的「手」,果然都「进化」得和人一样啊!(战术后仰)
当然,Make-A-Video除了可以把文本变成视频之外,也可以把静态图变成Gif。
输入:
输出:
输入:
输出:(亮的似乎有点不是地方)
2张静图变GIF,输入陨石图
输出:
以及,把视频,变成视频?
输入:
输出:
输入:
输出:
技术原理
今天,Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。
论文地址:https://makeavideo.studio/Make-A-Video.pdf
在这个模型出现之前,我们已经有了Stable Diffusion。
聪明的科学家已经让AI用一句话生成图像了,下一步他们会做什么呢?
很显然,是生成视频。
一只穿着红色斗篷的超级英雄狗在天空中飞翔
比起生成图像来,生成视频可难多了。我们不仅需要生成相同主题和场景的多个帧,还必须让它们及时、连贯。
这就增加了图像生成任务的复杂性——我们不可能就简单地使用DALLE生成60张图像,然后把它们拼成一个视频。它的效果会很差,很不真实。
因此,我们需要一个能够以更强大的方式理解世界的模型,并且让它按照这种理解水平来生成一系列连贯的图像。只有这样,这些图像才可以天衣无缝地融合在一起。
也就是说,我们的诉求是模拟一个世界,然后再模拟它的记录。该怎么做到呢?
按照以前的思路,研究人员会用大量的文本-视频对来训练模型,但在现在的这种情况下,这种处理方法并不现实。因为这些数据很难获得,并且训练成本非常昂贵。
因此,研究人员开了脑洞,采用了一种全新的方式。
他们选择开发一个文本到图像的模型,然后把它应用于视频。
巧了,前段时间,Meta就曾开发过这么一个从文本到图像的模型Make-A-Scene。
Make-A-Scene的方法概述