周深与邓丽君同台,vtuber能扛起元宇宙的大旗吗?

简介: 在今年江苏卫视的跨年晚会上,周深与和与邓丽君合作了《大鱼海棠》、《小城故事》等三首曲目,虽然仔细看邓丽君的形象还是略有破绽,但整体的自然度已经过关了。本次重现邓丽君的形象,使用的类似于vtuber虚拟合成技术,而声音其实是有真人在背后发声的,而非由AI合成。


在今年江苏卫视的跨年晚会上,周深与和与邓丽君合作了《大鱼海棠》、《小城故事》等三首曲目,虽然仔细看邓丽君的形象还是略有破绽,但整体的自然度已经过关了。本次重现邓丽君的形象,使用的类似于vtuber虚拟合成技术,而声音其实是有真人在背后发声的,而非由AI合成。

下面笔者将从公开的Github项目,带大家向各位读者简要介绍一下虚拟邓丽君背后的vtuber技术,从本质上来说vtuber也是一种基于GAN的合成技术,由于有江苏卫视的任何授权,因此以下使用基于自编码技术的虚拟形象合成项目ALAE为例(GitHub - podgorskiy/ALAE: [CVPR2020] Adversarial Latent Autoencoders):

虚拟形象合成技术的基本原理

这种模型的工作原理都是先读目标的视频流,再利用Dlib提取面部关键点的库提取并计算面部特征,再把一个正向基于标准光的标准脸加入,最后合成成为目标的图像。

image.png


ALAE两个自编码器:一个基于MLP编码器,另一个基于StyleGAN对抗神经网络的生成模型也可以称之为StyleALAE。ALAE的作者们将这两种体系结构的结合。结果表明,StyleALAE在各方面的性能都优于上一代的StyleGAN,且在相同分辨率下还可以生成真实的人脸重构信息

笔者初步在github上看了一下,由那个大名鼎鼎的换脸应用deepfaks衍生的如faceswap, deepfacelab的开源项目数量不下十几个,其中以faceswap、Openfaceswap等开源项目为代码的换脸技术在github上的更新与讨论十分热烈,可以说完全看不到趋冷的迹象,极快的推动了开源换脸技术的迭代速度。而以FaceApp为代表的项目虽然没有开源,但是它们都提供了支持一键式操作的应用程序,极大的降低了换脸技术的使用门槛。这必须引起业界高度的重视,尤其是目前还没法有针对换脸之后的人脸进行识别的方案之前,矛与盾的较量估计还会一直持续。下面笔者就带大家来盘点一下虚拟形象合成技术的发展历程。

PIX2PIX:虚拟形象合成的祖师级模型

  咱们刚刚提到如deepfaks的换脸应用,其实都参考了PIX2PIX的思想(PIX2PIX论文链接PIX2PIXGithub地址)PIX2PIX是基于对抗神经网络GAN的模型,其目标是由图像的轮廓,还原回真实图像,目前读者可以到Image-to-Image Demo - Affine Layer这个网站来感受一下,如何从随便画出的简笔画转换成真实的图像。

 

image.png

后来N厂又提出了PIX2PIXHD技术(GITHUB地址),PIX2PIXHD把之前由PIX2PIX生成的图像分辨率提高了很多。可以说PIX2PIX是后面这些虚拟形象合成、一键“脱"衣等技术的理论基础,正是凭借AI强大的联想及脑补能力使以上应用成为了可能。

CycleGAN:开创时代的模型

   2017年由加州大学伯克利分校的教授们,又提出了CycleGAN模型,CycleGAN论文地址CycleGAN的Github传送门,CycleGAN使用循环一致性损失函数来实现训练,从而完成将图片中一个域到另一个域的无缝转换。简单来说CycleGAN能将图像的主题风格或者某一域主体完美进行切换,具体效果如下:

image.png

斑马与马的互转

CycleGAN也有升级版UGATIT(论文地址Githu地址),其效果更好,可以用在卡通风格的转换,具体如下

image.png

    CycleGAN出现之后,图像主题无缝切换将图像伪造技术提升了一个高度,在换脸之余还能把原背景主题进行切换,给鉴定带来来大麻烦

StyleGAN:ALAE先导模型

StyleGAN模型也是N厂提出的,其用来计算Picure A与Picture B结合的结果(StyleGAN论文地址Github 地址),而且StyleGAN还支持多种结合模式,详见下表

Style 等级

Picture A

Picture B

高等级(粗略)

所有颜色(眼睛,头发,光线)和细节面部特征来自Picture A

继承Picture B高级的面部特征,如姿势、一般的发型、脸部形状和眼镜

中等级

姿势、一般的面部形状和眼镜来自Picture A

继承Picture B中级的面部特征 ,如发型,张开/闭着的眼睛

高等级(细微)

主要面部内容来自Picture A

继承Picture B高级面部特征,如颜色方案和微观结构

   其两张图像按照三种style结合的效果如下图:

 

image.png

虚拟形象合成技术的发展趋势

目前虚拟形象合成技术的相关模型除了在效果方面不断取得突破之外,也有其它方面的发展动向,具体如下:

图像修复:Partialconv模型可以通过AI对于图像进行修复,这又是一个N厂提出的模型(Partialconv的论文地址Partialconv的Github传送门)即使图像丢失了大面积的像素他也能通过AI将损失进行修复,其效果图如下:

image.png

多媒体合成:Speech-Driven Facial Animation是一个由三星提出的使用照片加音频合成视频的模型(SDFA论文地址SDFA的Github链接)SDA能够仅使用人的静止图像和包含语音的音频剪辑来产生动画面部。 其生成的视频不仅可以产生与音频同步的唇部动作,还可以呈现特有的面部表情,例如眨眼,眉毛等,同时能够捕捉说话者的情绪并将其反映在面部表情中。

原图如下:

image.png

SDA处理之后生成的图像,静止图像立刻活灵活现起来。

sda.gif

  虚拟形象合成等技术的兴起给我们以极大的机会云“复活”已故的人物,虽然是好是坏未为可知,但是这种技术的确会给让人们在元宇宙中体验到无限的可能,具体人类的未来是星辰大海磨砺,还是元宇宙中的无限可能,还是让时间给我们答案吧。

相关文章
|
存储 数据建模 数据库
初探多维表格
最近调研学习了一些多维表格产品,记录一下自己收获的基础认知。在线表格的基础结构是单元格,横向纵向拓展的单元格的集合,就构成了一张工作表。单元格之间可以任意关联,非常灵活。在线表格的适用面很广,能够在数据收集和分析、财会统计等场景发挥重要的作用。在我试图寻找国外的多维表格产品时,发现很少有用「表格」来描述自己的。比如 Airtable 对自己的介绍是:一个构建协同应用的低代码平台。目前国内处于前沿的
1960 0
初探多维表格
|
存储 安全 API
什么是API Token?
API令牌是一种用于访问和验证API(应用程序编程接口)的安全凭证。它是一个字符串,用于识别和授权应用程序或用户访问特定的API服务或资源。==API令牌可以是访问令牌(Access Token)或密钥(API Key)==。
4302 0
|
人工智能 计算机视觉
RT-DETR改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
RT-DETR改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
1346 5
RT-DETR改进策略【损失函数篇】| NWD损失函数,提高小目标检测精度
|
人工智能 异构计算 Python
智谱AI数学课代表MathGLM魔搭首发,社区体验推理教程来啦!
GLM家族又发布了一个新成员 数学模型 MathGLM ,以提升大语言模型的数学推理能力。它可以在不使用计算器工具的情况下,高效执行复杂算术运算,解答中文数学应用题,已经在魔搭社区全球首发开源啦!
|
存储
阿里云盘企业版收费标准:不同人数、存储空间价格表
2024年最新阿里云盘企业版收费标准发布,企业网盘新规格上线,首月免费试用,最高可节省87%费用。提供5人至100人的多种存储方案,具体价格表和详细对比请见文章。
4154 10
|
Oracle Ubuntu 关系型数据库
linux发行版对比
国内部分常用开源操作系统简要对比
731 5
|
缓存 分布式计算 监控
算法优化:提升程序性能的艺术
【10月更文挑战第20天】算法优化:提升程序性能的艺术
|
机器学习/深度学习 人工智能 算法
在 AI Native 环境中实现自动超参数优化的微调方法
【8月更文第1天】随着人工智能技术的不断发展,深度学习模型的训练变得越来越复杂。为了达到最佳性能,需要对模型进行微调,特别是对超参数的选择。本文将探讨如何在 AI Native 环境下使用自动化工具和技术来优化模型的微调过程。
779 5
|
Go
Golang语言基础数据类型之字符类型
这篇文章介绍了Go语言中的字符类型,包括字符概述、byte和rune类型的定义、转义字符的使用以及如何遍历字符串获取字符的示例。
244 0
|
弹性计算 人工智能 小程序
阿里云:云工开物优势详解
阿里云推出“云工开物”高校计划,为中国在校生免费提供云服务器,降低学习门槛,激发创新潜能。通过实战项目和创新挑战赛,学生可掌握前沿技术,对接产业前沿。该计划还提供技能认证和就业支持,助力学生职业发展,构建从学习到创新再到就业的完整路径,培育未来科技人才。