在今年江苏卫视的跨年晚会上,周深与和与邓丽君合作了《大鱼海棠》、《小城故事》等三首曲目,虽然仔细看邓丽君的形象还是略有破绽,但整体的自然度已经过关了。本次重现邓丽君的形象,使用的类似于vtuber虚拟合成技术,而声音其实是有真人在背后发声的,而非由AI合成。
下面笔者将从公开的Github项目,带大家向各位读者简要介绍一下虚拟邓丽君背后的vtuber技术,从本质上来说vtuber也是一种基于GAN的合成技术,由于有江苏卫视的任何授权,因此以下使用基于自编码技术的虚拟形象合成项目ALAE为例(GitHub - podgorskiy/ALAE: [CVPR2020] Adversarial Latent Autoencoders):
虚拟形象合成技术的基本原理
这种模型的工作原理都是先读目标的视频流,再利用Dlib等提取面部关键点的库提取并计算面部特征,再把一个正向基于标准光的标准脸加入,最后合成成为目标的图像。
ALAE有两个自编码器:一个是基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型,也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成更真实的人脸重构信息。
笔者初步在github上看了一下,由那个大名鼎鼎的换脸应用deepfaks衍生的如faceswap, deepfacelab的开源项目数量不下十几个,其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在github上的更新与讨论十分热烈,可以说完全看不到趋冷的迹象,极快的推动了开源换脸技术的迭代速度。而以FaceApp为代表的项目虽然没有开源,但是它们都提供了支持一键式操作的应用程序,极大的降低了换脸技术的使用门槛。这必须引起业界高度的重视,尤其是目前还没法有针对换脸之后的人脸进行识别的方案之前,矛与盾的较量估计还会一直持续。下面笔者就带大家来盘点一下虚拟形象合成技术的发展历程。
PIX2PIX:虚拟形象合成的祖师级模型
咱们刚刚提到如deepfaks的换脸应用,其实都参考了PIX2PIX的思想(PIX2PIX论文链接,PIX2PIXGithub地址)PIX2PIX是基于对抗神经网络GAN的模型,其目标是由图像的轮廓,还原回真实图像,目前读者可以到Image-to-Image Demo - Affine Layer这个网站来感受一下,如何从随便画出的简笔画转换成真实的图像。
后来N厂又提出了PIX2PIXHD技术(GITHUB地址),PIX2PIXHD把之前由PIX2PIX生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些虚拟形象合成、一键“脱"衣等技术的理论基础,正是凭借AI强大的联想及脑补能力使以上应用成为了可能。
CycleGAN:开创时代的模型
2017年由加州大学伯克利分校的教授们,又提出了CycleGAN模型,CycleGAN论文地址、CycleGAN的Github传送门,CycleGAN使用循环一致性损失函数来实现训练,从而完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换,具体效果如下:
斑马与马的互转
CycleGAN也有升级版UGATIT(论文地址、Githu地址),其效果更好,可以用在卡通风格的转换,具体如下
CycleGAN出现之后,图像主题无缝切换将图像伪造技术提升了一个高度,在换脸之余还能把原背景主题进行切换,给鉴定带来来大麻烦
StyleGAN:ALAE先导模型
StyleGAN模型也是N厂提出的,其用来计算Picure A与Picture B结合的结果(StyleGAN论文地址、Github 地址),而且StyleGAN还支持多种结合模式,详见下表
Style 等级 |
Picture A |
Picture B |
高等级(粗略) |
所有颜色(眼睛,头发,光线)和细节面部特征来自Picture A |
继承Picture B高级的面部特征,如姿势、一般的发型、脸部形状和眼镜 |
中等级 |
姿势、一般的面部形状和眼镜来自Picture A |
继承Picture B中级的面部特征 ,如发型,张开/闭着的眼睛 |
高等级(细微) |
主要面部内容来自Picture A |
继承Picture B高级面部特征,如颜色方案和微观结构 |
其两张图像按照三种style结合的效果如下图:
虚拟形象合成技术的发展趋势
目前虚拟形象合成技术的相关模型除了在效果方面不断取得突破之外,也有其它方面的发展动向,具体如下:
图像修复:Partialconv模型可以通过AI对于图像进行修复,这又是一个N厂提出的模型(Partialconv的论文地址、Partialconv的Github传送门)即使图像丢失了大面积的像素他也能通过AI将损失进行修复,其效果图如下:
多媒体合成:Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型(SDFA论文地址、SDFA的Github链接)SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。 其生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。
原图如下:
SDA处理之后生成的图像,静止图像立刻活灵活现起来。
虚拟形象合成等技术的兴起给我们以极大的机会云“复活”已故的人物,虽然是好是坏未为可知,但是这种技术的确会给让人们在元宇宙中体验到无限的可能,具体人类的未来是星辰大海磨砺,还是元宇宙中的无限可能,还是让时间给我们答案吧。