周深与邓丽君同台,vtuber能扛起元宇宙的大旗吗?

简介: 在今年江苏卫视的跨年晚会上,周深与和与邓丽君合作了《大鱼海棠》、《小城故事》等三首曲目,虽然仔细看邓丽君的形象还是略有破绽,但整体的自然度已经过关了。本次重现邓丽君的形象,使用的类似于vtuber虚拟合成技术,而声音其实是有真人在背后发声的,而非由AI合成。


在今年江苏卫视的跨年晚会上,周深与和与邓丽君合作了《大鱼海棠》、《小城故事》等三首曲目,虽然仔细看邓丽君的形象还是略有破绽,但整体的自然度已经过关了。本次重现邓丽君的形象,使用的类似于vtuber虚拟合成技术,而声音其实是有真人在背后发声的,而非由AI合成。

下面笔者将从公开的Github项目,带大家向各位读者简要介绍一下虚拟邓丽君背后的vtuber技术,从本质上来说vtuber也是一种基于GAN的合成技术,由于有江苏卫视的任何授权,因此以下使用基于自编码技术的虚拟形象合成项目ALAE为例(GitHub - podgorskiy/ALAE: [CVPR2020] Adversarial Latent Autoencoders):

虚拟形象合成技术的基本原理

这种模型的工作原理都是先读目标的视频流,再利用Dlib提取面部关键点的库提取并计算面部特征,再把一个正向基于标准光的标准脸加入,最后合成成为目标的图像。

image.png


ALAE两个自编码器:一个基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成真实的人脸重构信息

笔者初步在github上看了一下,由那个大名鼎鼎的换脸应用deepfaks衍生的如faceswap, deepfacelab的开源项目数量不下十几个,其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在github上的更新与讨论十分热烈,可以说完全看不到趋冷的迹象,极快的推动了开源换脸技术的迭代速度。而以FaceApp为代表的项目虽然没有开源,但是它们都提供了支持一键式操作的应用程序,极大的降低了换脸技术的使用门槛。这必须引起业界高度的重视,尤其是目前还没法有针对换脸之后的人脸进行识别的方案之前,矛与盾的较量估计还会一直持续。下面笔者就带大家来盘点一下虚拟形象合成技术的发展历程。

PIX2PIX:虚拟形象合成的祖师级模型

  咱们刚刚提到如deepfaks的换脸应用,其实都参考了PIX2PIX的思想(PIX2PIX论文链接PIX2PIXGithub地址)PIX2PIX是基于对抗神经网络GAN的模型,其目标是由图像的轮廓,还原回真实图像,目前读者可以到Image-to-Image Demo - Affine Layer这个网站来感受一下,如何从随便画出的简笔画转换成真实的图像。

 

image.png

后来N厂又提出了PIX2PIXHD技术(GITHUB地址),PIX2PIXHD把之前由PIX2PIX生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些虚拟形象合成、一键“脱"衣等技术的理论基础,正是凭借AI强大的联想及脑补能力使以上应用成为了可能。

CycleGAN:开创时代的模型

   2017年由加州大学伯克利分校的教授们,又提出了CycleGAN模型,CycleGAN论文地址CycleGAN的Github传送门,CycleGAN使用循环一致性损失函数来实现训练,从而完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换,具体效果如下:

image.png

斑马与马的互转

CycleGAN也有升级版UGATIT(论文地址Githu地址),其效果更好,可以用在卡通风格的转换,具体如下

image.png

    CycleGAN出现之后,图像主题无缝切换将图像伪造技术提升了一个高度,在换脸之余还能把原背景主题进行切换,给鉴定带来来大麻烦

StyleGAN:ALAE先导模型

StyleGAN模型也是N厂提出的,其用来计算Picure A与Picture B结合的结果(StyleGAN论文地址Github 地址),而且StyleGAN还支持多种结合模式,详见下表

Style 等级

Picture A

Picture B

高等级(粗略)

所有颜色(眼睛,头发,光线)和细节面部特征来自Picture A

继承Picture B高级的面部特征,如姿势、一般的发型、脸部形状和眼镜

中等级

姿势、一般的面部形状和眼镜来自Picture A

继承Picture B中级的面部特征 ,如发型,张开/闭着的眼睛

高等级(细微)

主要面部内容来自Picture A

继承Picture B高级面部特征,如颜色方案和微观结构

   其两张图像按照三种style结合的效果如下图:

 

image.png

虚拟形象合成技术的发展趋势

目前虚拟形象合成技术的相关模型除了在效果方面不断取得突破之外,也有其它方面的发展动向,具体如下:

图像修复:Partialconv模型可以通过AI对于图像进行修复,这又是一个N厂提出的模型(Partialconv的论文地址Partialconv的Github传送门)即使图像丢失了大面积的像素他也能通过AI将损失进行修复,其效果图如下:

image.png

多媒体合成:Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型(SDFA论文地址SDFA的Github链接)SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。 其生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。

原图如下:

image.png

SDA处理之后生成的图像,静止图像立刻活灵活现起来。

sda.gif

  虚拟形象合成等技术的兴起给我们以极大的机会云“复活”已故的人物,虽然是好是坏未为可知,但是这种技术的确会给让人们在元宇宙中体验到无限的可能,具体人类的未来是星辰大海磨砺,还是元宇宙中的无限可能,还是让时间给我们答案吧。

目录
打赏
0
0
0
0
2386
分享
相关文章
价格战迷雾下,大模型创业者只能被动挨打?
2024年大模型行业迎来淘汰赛,各大公司如字节跳动、阿里云等纷纷大幅降价,甚至免费提供服务,导致“白菜价”时代到来。此举对初创企业造成压力,部分跟进降价,如智谱AI,部分选择不跟风,如百川智能。降价潮可能带来三种结果:一是利好开发者,加速AI应用爆发;二是行业集中度提高,淘汰缺乏竞争力的小公司;三是可能引发价格主导的“圈地运动”。初创企业为生存可采取技术突破、提供差异化服务或转向To C市场等策略。尽管价格战带来挑战,但仍有企业在融资中取得成功,如智谱AI。然而,也有公司如竹间智能面临困难。大模型行业的未来充满变数,企业需寻找适应新环境的生存之道。
102 3
【年终特辑】看见科技创新力量 洞见时代创业精神—文旅娱乐—易游无限:数字技术负载文化传统,赛博空间筑牢精神家园
【年终特辑】看见科技创新力量 洞见时代创业精神—文旅娱乐—易游无限:数字技术负载文化传统,赛博空间筑牢精神家园
144 0
响铃:云计算“飞轮效应”显现,腾讯、阿里领跑没有悬念
响铃:云计算“飞轮效应”显现,腾讯、阿里领跑没有悬念
328 0
响铃:云计算“飞轮效应”显现,腾讯、阿里领跑没有悬念
无人车飞速狂飙,黑科技如何为其加油打气?
科技快速发展的年代,我们越来越不能轻易地“预测未来”,因为总有那么多意料之外在等着我们。
无人车飞速狂飙,黑科技如何为其加油打气?
十五年了,蚂蚁为何执着攻坚这两个技术堡垒?
近日,蚂蚁金服副CTO 胡喜应邀做了《蚂蚁金服十五年技术架构演进之路》的演讲,分享蚂蚁金服对金融科技未来的判断,并首次对外公开蚂蚁金服技术人才培训体系以及 BASIC College 项目。
3840 0
当学术大家遇到技术大拿,如何攻克数据库应用头号难题?数位产学研大咖这样解读
中国最强数据库学术会议来袭!在NDBC大会期间,达摩院数据库与存储实验室联合中国计算机学会(CCF)数据库专业委员会,举办了首届产业数据库研发论坛。产学研的思想碰撞,见证“阿里力量”
Uma
2449 0
贺福初院士:发达陷阱可能被跨越,中华文明复兴将开创人类文明新纪元
回溯历史越久,展望未来越远。文明的创造是整个人类史上最大的革命力量。中共十九大开启全党全国新时代的新长征,我们不仅要跨过全面建成小康社会的“草地”、攀登建设社会主义现代化强国的“雪山”,更要实现中华民族伟大复兴,通过加强文明交流互鉴,构建人类命运共同体,开创人类文明的新纪元。
2323 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等