德国小哥用AI拍大片!GPT-2写台词、StyleGAN做特效、Replica来配音

简介: 最近,国外一个技术极客Alex看了电影《阳光泉水》后深受启发,决定自己用AI来生成一部。他首先用GPT-2生成了一段荒诞不经的剧本,接着用StyleGAN2制作了一些人物和视觉特效,还找到了一个超实用的语音生成工具,一起来看下效果吧!

微信图片_20220109010040.png


国外一位网友Vlad Alex十分喜欢电影(Sunspring)《阳光泉水》,着迷于其荒诞的对白,一番搜索发现,剧本的创作者是Benjamin(本杰明)。


     微信图片_20220109010042.gif


这还没完,这位Benjamin其实是一个运用LSTM制作的人工智能程序,由Ross Goodwin 研发。Goodwin不仅是一位AI领域的研究者,还是一位大诗人。

 

之后曾获得英国电影协会提名的英国导演Oscar Sharp完成了影片的拍摄,Thomas Middleditch是本片主角。

 

这些由人工智能写作的剧情,即使充满了荒诞主义,并且由看似随机的短语组成,但在看剧的时候,我们的大脑还是在很用力的理解剧情。

 

Vlad Alex知道了这些后,激动不已,觉得自己也能让AI来拍一部电影,结果真的成功了。

   

微信图片_20220109010044.gif


如何制作自己的AI电影呢?

 

Vlad Alex考虑到自己是电影业余爱好者,没有专业的工作室,因此可以在不影响影片质量的前提下去掉一些可有可无的元素,只保留电影的必要元素:情节、演员和视觉效果、音乐。


生成一份充满荒诞派情节的电影剧本


Alex使用由Openai推出的GPT-2语言模型,为自己生成了电影脚本。

 

GPT-2语言模型的colab版本,可以从下面的网址进入:

 

https://colab.research.google.com/github/mrm8488/shared_colab_notebooks/blob/master/GPT2_with_JS_UI.ipynb

      微信图片_20220109010046.png


在程序中需要输入相关提示语,比如电影有几个主人公,并且设定基本的场景。

 

Alex为电影脚本设定了以下这些信息:


     微信图片_20220109010047.png


接下来从GPT-2语言模型语言模型中提供的各式文本类型中,选择荒诞剧创作,这种创作风格介于贝克特,摩罗扎克和大卫·林奇之间。

 

接下来GPT-2语言模型会输出荒诞剧风格的脚本创作结果:


     微信图片_20220109010049.png


GPT-2语言模型是OpenAI在2019年发布的一种人工智能语言处理模型。今年5月底,OpenAI发布了GPT-3语言模型,基于一系列基准测试和独立的自然语言处理系统,来实现语言翻译,以及生成新闻文章,甚至可以完成SAT考试中的问题回答。

 

Alex使用的GPT-2语言模型,已经学习了40G的文本内容,由15亿个参数共同来生成写作内容。而最新发布的GPT-3语言模型则有高达1750亿个参数来完成语言处理。

 

回看上面生成的文本,我们可以发现由GPT-2语言模型创作生成的文本,具有很强的超现实性。这些内容通常没有实际意义,但是符合一些文学语境。

 

毕竟,这可是学习了40G人类文本的模型啊。

   

微信图片_20220109010051.gif

     

StyleGAN2来一段人物视频特效


Alex是StyleGAN2的超级粉丝,使用StyleGAN2可以轻松地生成一个新面孔,甚至是转场动画。于是Alex用它生成了一些人脸和房间的图像,但是使面部表情和故事描述保持一致,着实费了他不少功夫。  


 微信图片_20220109010053.png


使用StyleGAN2生成的一些图像

 

当然你也可以选择用first order model,也是一个很棒的工作。它的功能简单粗暴,给一个静态图片,给一段驱动视频,就能让静态图动起来,比如用Hinton驱动下法老。

      微信图片_20220109010055.gif

Hinton驱动的法老


通过3 d 肯恩 · 伯恩斯效应,我们也可以将照片转换成魔性的动画。


QQ图片20220109005718.png

点击查看原视频链接


语音Replica Studios生成带情感的


语音生成可能是最古老的机器学习方法之一。「我最喜欢的是 MelNet ,只要听取样本(演讲者或者名人数据集),就可以产生高质量语音的模型」。可惜的是,MelNet 没有一个可用的Colab Notebook。 所以他选择了Amazon Polly。作为 Amazon AWS ai / ml 服务的一部分,Polly 提供各种语言的大量语音,但是Polly产生的语音更像主持人,并不总是适合虚构的内容。 比如Alex为predictions视频生成的语音。

QQ图片20220109005721.png

点击查看原视频链接


可以听到,对话中的声音没有多少感情,并不真正令人信服。 后来Alex发现了Replica Studios,这个工具生成的语音质量效果十分惊艳。  


     微信图片_20220109010057.png      


 Replica Studios的使用非常简单。你按照时间顺序对短语进行排序,并将合适的声音应用到人物身上。  


   微信图片_20220109010059.png


这样就完成了语音生成,直接导出mp3即可!

好了,开拍吧!


情节、演员和视觉效果、音乐都准备好了,开拍吧!


QQ图片20220109005748.png

点击查看原视频链接

这段视频除了花费了Alex大量的精力去剪辑 ,还消耗了他家很多咖啡。。或许最棘手的事情是使用Premiere 及时拉长视频,并将它们与剧情同步。 EmptyRoom为我们展示了机器学习在生成视频方面的巨大潜力,不仅简化了流程,还分享了许多创造性的结果,当灵感枯竭的时候也许AI能带给你一股清泉,一起拥抱人工智能吧!


参考链接:

https://towardsdatascience.com/ai-as-a-movie-maker-e5865b99a06c

相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI发展与GPT简介
人工智能(AI)是指计算机系统执行通常需要人类智能的任务的能力,如视觉感知、语音识别、决策制定和语言翻译。简而言之,AI就是让计算机模仿人类的思考和行为过程。
223 0
|
25天前
|
人工智能 前端开发 测试技术
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
本文介绍了 GPT-4 如何成为前端开发者的“神队友”,让开发变得更加高效愉快。无论是需求到代码的自动生成、快速调试和性能优化,还是自动化测试和技术选型,GPT-4 都能提供极大的帮助。通过智能生成代码、捕捉 BUG、优化性能、自动化测试生成以及技术支持,GPT-4 成为开发者不可或缺的工具,帮助他们从繁重的手动任务中解脱出来,专注于创新和创意。GPT-4 正在彻底改变开发流程,让开发者从“辛苦码农”转变为“效率王者”。
28 0
探索前端与 AI 的结合:如何用 GPT-4 助力开发效率
|
1月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
1月前
|
人工智能
用AI人模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
斯坦福大学和纽约大学的研究团队利用GPT-4模型成功模拟了人类在社交互动中的行为模式,实验结果显示AI能以惊人准确度模仿人类对话,甚至在在线论坛和社交媒体上与真人难以区分。这一突破不仅展示了AI在社会学研究中的巨大潜力,还引发了对AI伦理和透明度的深入探讨。尽管存在一些局限性和挑战,这项研究为未来社会学实验提供了新工具和方法。[论文地址:https://docsend.com/view/qeeccuggec56k9hd]
54 2
|
3月前
|
人工智能 自然语言处理 安全
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
Google Gemini 1.5 Pro在AI竞赛中遥遥领先,挑战GPT-4o
|
2月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
3月前
|
人工智能 自然语言处理 小程序
【AI】Gemini:听说GPT-4你小子挺厉害
谷歌推出新AI模型Gemini Pro,支持中文并具备多模态处理能力,涵盖文本、图像、音频、视频和代码。本文通过五个问题对比Gemini Pro与ChatGPT-4的表现,包括绘画、数学题解答、成语解释、天气查询及奥运冠军名单。结果显示两者各有优势,Gemini Pro在成语解释和天气查询方面略胜一筹,而ChatGPT-4在绘画方面表现更好
43 0
【AI】Gemini:听说GPT-4你小子挺厉害
|
3月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
119 2
|
3月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
76 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
153 9