本文来自AI新媒体量子位(QbitAI)
这句话你说过没有?不承认?我给你看证据!
于是你就看到一段视频,画面中的你开口说了一段你不曾讲过的话,口型自然、动作流畅。这是怎么回事?
来自牛津大学工程科学系视觉几何组的三位工程师,最近提出了一种生成聊天面部视频的方法。这个方法需要两个输入信息:
- 一张静止的面部图像
- 一个语音片段
可以得到的输出,是口型与语音片段同步且匹配的视频。这个方法可以实时工作,并且在运行时,可以应用于未曾见过的面孔和未曾听过的音频,也就是说,不是训练数据的情况下也能工作。
干说不如来段视频,一下就全明白了:
为了实现上述效果,牛津大学的团队提出了一种编码-解码CNN模型,使用面部和音频的联合嵌入,来生成合成的面部聊天视频帧。这个模型经过数十小时未标记视频的训练。
相关Paper在此:
https://arxiv.org/pdf/1705.02966.pdf
【完】
本文作者:若朴
原文发布时间:2017-05-16