一个画面,两条时间线!用AI改写视频不同主角时间,效果堪比大片

简介: 一个画面,两条时间线!用AI改写视频不同主角时间,效果堪比大片

前阵子大热的电影《信条》你看了吗?

无论是从剧情还是制作上这部电影都掀起了一阵舆论浪潮。影片中令人印象最深刻的无疑是几场“时间钳形大战”,高度还原了时间逆转的整个过程,而不是直接跳转到过去的某个时间点。

为了把时间在不同方向上的运行真实的展示出来,导演诺兰表示,在这部电影中用到的特效镜头不到300个,甚至可能比大多数的浪漫喜剧电影还要少。真是让人实名瑞斯拜。

诺兰尽量坚持实拍也是他自己的“信条”,但随着科技的进步,不可否认,技术能做到的事情越来越多。

这不,最近谷歌和牛津大学的研究人员发表了一款“视频剪辑新利器”,可以“重写时间”!

在视频里可以只对特定人物的动作实现快进、慢放甚至删除等,而不影响画面上的其他人物,还可实现多种特殊动态效果。

来和文摘菌一起看看吧~

当深度神经网络学会了“掌控时间线”

先来看一个例子,这里有一个孩子们跳水的视频,原视频中他们是分别跳入水中的:

研究人员用了一种全新的深度神经网络进行视频处理,成功的做到让他们一同跳入水中!见证奇迹的时刻:

是不是完全没有修改痕迹,看起来是如此的自然流畅。

这就是谷歌和牛津大学研究人员提出的“时间重写术”,他们训练了一种深度神经网络,学习如何将视频分层分解。

这个模型不仅在不同的层中分离了人的运动,而且还可以捕捉与那些人相关的各种场景元素(例如,孩子们在水中溅起的水、阴影、映像)。当视频中的人被“重写时间”的时候,这些相关的元素也会自动与他们一起重新计时,这使得研究人员能够为各种重新计时的效果创建真实的视频重染。

再来看看这个“时间重写”大法还能做出什么毫无违和的视频~

“冻结时间”

如下图所示,这里有两对小朋友在跳拉丁舞,可以看到,在原视频中从视频开始他们就一直在跳。

接下来,就要“冻结时间”了!就像我们在电影中看到的那样,有超能力的主角可以在众人静止的时候活动。那么未来这种特效似乎可以放心的交给AI了!

就像这样,AI可以对时间进行偏移,例如偏移时间为1秒,我们可以看到右侧这对小朋友静止了1秒才开始跳,自然他们的舞蹈动作相对左侧的对照组也会随之延后1秒。

除此之外,这个神经网络还可以随心所欲的控制“冻结”谁以及“冻结”时间,比如跳到一半让右边这对停一下~

左边这对先停一下再跳也没问题~

你以为就这??当然不止。这个神经网络还可以让视频中的人物变成“重影”的效果。

在进行视频剪辑的时候,有一种叫做“叠化”的转场效果不知大家是否有所耳闻。什么意思呢?就是在视频中两个片段切换的时候,为了让切换效果更加自然而采取的一种过渡手段。也就是说,前一个片段的结尾和后一个片段的开头重叠在一起。

而谷歌和牛津大学研究人员训练的这个神经网络可以做到与“叠化”转场类似的效果。研究人员把这个效果称之为——Duplication。区别于视频转场,这个效果可以通过重写时间来叠化一段视频中的人物动作。

来看个例子,原视频中粉色裤子的小女孩做了一个侧手翻:

通过神经网络的渲染,可以变成以下效果:

侧手翻的小女孩的动作叠化后是不是有点炫酷~ 另外右边蓝色衣服的女孩用到了冻结效果。两则视频对比来看,周围的环境完全看不出有什么异样,这样的特效可以说是非常成功了~

通过分层神经渲染,只重新定义人物时间线,视频毫无违和感!

所有这些效果都是通过一种新的基于深度神经网络的模型实现的,这项技术的核心是分层神经渲染。

即该模型可以根据视频进行优化,将每帧图像分解为一组层,每个层由一个RGB彩色图像和一个不透明蒙版α(统称为“RGBA”)组成,与视频中特定的单个/多个人物相关联。

背景层以及1-3层

需要注意的是,研究人员在这项研究中只关注重写时间。也就是说,输出视频中的人物姿态都是在原视频中出现的,他们不生成新的、看不见的姿态或视点。

值得一提的是,他们的方法不需要手动注释或显式表示动态场景元素,如阴影、水花和蹦床变形;而是只需要对人员进行粗略的参数化,然后,模型会自动学习将与人物相关的场景分组重建。重要的是,重定时效果可以通过对层的简单操作(移除、复制或插值特定层)而产生,而无需额外的训练或处理。

分层神经渲染

更多理论详情,可以参见论文《Layered Neural Rendering for Retiming People in Video》:
https://arxiv.org/pdf/2009.07833.pdf

这项研究的相关代码也将在SIGGRAPH Asia 2020上发布,大会预计将在12月4日举行。

最后,文摘菌也期待的搓搓手,希望未来AI能加入电影特效大军~

相关参考:
https://retiming.github.io/

相关文章
|
1月前
|
人工智能 编解码 API
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
【选择”丹摩“深入探索智谱AI的CogVideoX:视频生成的新前沿】
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
51 4
|
1月前
|
人工智能 自然语言处理 搜索推荐
Sora - 探索AI视频模型的无限可能
这篇文章详细介绍了Sora AI视频模型的技术特点、应用场景、未来展望以及伦理和用户体验等方面的问题。
26 0
|
3月前
|
机器学习/深度学习 人工智能 编解码
|
3月前
|
人工智能 搜索推荐
影视与游戏行业AI视频制作的第3步:为角色生成说话视频
继 影视与游戏行业AI视频制作实战:第一步,角色形象设计的一致性以及影视与游戏行业AI视频制作实战:第二步,为角色生成个性化语音 后,实现角色生动化的下一步动作就是能让图像动起来。
|
3月前
|
人工智能 自然语言处理 语音技术
使用AI识别语音和B站视频并通过GPT生成思维导图原创
AI脑图现新增语音及B站视频内容识别功能,可自动生成思维导图。用户可通过发送语音或上传语音文件,系统自动转换为文本并生成结构化的思维导图;对于B站视频,仅需提供链接即可。其工作流程包括:语音转文本、文本结构化、生成Markdown、Markdown转思维导图HTML以及输出最终的思维导图图片给用户。
76 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC-基于EAS服务快速部署一个AI视频生成
AIGC-基于EAS服务快速部署一个AI视频生成
|
3月前
|
机器学习/深度学习 人工智能 算法
|
4月前
|
人工智能 数据安全/隐私保护 计算机视觉
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包
【7月更文挑战第6天】旷视科技开源AI模型MegActor,以照片生成逼真人像视频,模仿表情包。基于条件扩散模型,解决身份泄露和背景干扰问题,使用合成数据、图像分割、CLIP编码及风格迁移技术。虽有视频质量、隐私风险及计算资源限制,但对动画和虚拟偶像行业带来革新。[链接](https://arxiv.org/abs/2405.20851)
102 3
|
5月前
|
人工智能 算法 计算机视觉
无论真实还是AI视频,摩斯卡都能重建恢复4D动态可渲染场景
【6月更文挑战第30天】摩斯卡系统革命性地从单视角视频重建4D动态场景,融合2D视觉模型与物理优化,实现渲染。利用“Motion Scaffold”表示几何、外观和运动,即使在多视角输入困难时也能保证高质量重建与渲染。虽有输入质量和计算资源限制,但其创新性提升了动态场景处理的实用性和可控性。[arXiv:2405.17421](https://arxiv.org/pdf/2405.17421)
57 2