换脸技术的负面影响
打开网页搜索换脸技术,铺天盖地的全是负面新闻,比如“近日,北方某地警方发布了一起利用“AI换脸”对当事人实施诈骗的案件。诈骗分子运用人工智能技术,通过微信视频通话与受害人进行了十多分钟交流,受害人转账数百万元”。对于这类消息,有时候挺无奈的,结合当前视频换脸技术的发展现状,要达到实时换脸,必然需要折损一些效果、分辨率、帧率的最终呈现,也即会产生非常多的瑕疵和漏洞,但是确实有很多非领域的人容易忽略细节然后上当受骗。不过反向来看,人能识别出来的漏洞,用AI技术来甄别这部分漏洞肯定轻而易举,这也随之催生了一系列多媒体防伪技术。国家之所以没有完全禁用换脸技术,也是不想限制新型技术,但是制定了换脸技术的使用范围、应用场景等一系列防止技术被滥用的条款约束。那么接下来我们将用尽量简单白话的描述来剖析下AI换脸技术的原理,做一个科普文章,了解下当前技术的发展现状及其局限性。用魔法的力量打败魔法,谨防上当受骗。
剖析换脸技术的底层技术框架
a) Deepfake技术的发展
随着2014年Goodfellow等人首发对抗生成网络技术(Generative Adversarial Nets,GAN)技术,新一代生成式AI技术正式诞生。GAN技术为Deepfake未来的发展奠定了非常强的基础,其演进也是推动着Deepfake走向让人为之震撼再到逐步惊慌的主要原动力。
2014《Generative Adversarial Nets》 第一版人脸生成技术
对抗-生成技术无需过多且严苛的监督数据,而是利用已有的知识积累,尽可能是让深度学习网络自成体系的博弈论框架,通过不断的自我反驳错误结果从而精细更正新一轮的生成结果,最终练就一个强大的生成网络,达到令GAN的判别模块自我困惑的目的,进而迭代出一个强大的足以以假乱真的生成网络。
介于GAN如此优秀的技术框架设计,随后几年(2015-2016左右)基于GAN到各个领域的扩展以及变种研究,如雨后春笋般涌现。通过和CNN的结合,部分解决了图像生成的低效问题,卷积网络的结构越深越复杂,生成图像的质量也就越可信。于此同时为了能够并行处理多任务,是的生成结果更可控,研究人员将多个GAN进行结合,达到多维生成编辑的目标,比如对人脸、肤色、发型、配饰、表情等的编辑。即便如此,此时能达到的效果在分辨率和效果上仍旧距离“写实”有很大的GAP,难以达到困惑人眼的地步。随后终于有人(英伟达2017)针对GAN的生成图像分辨率低、模糊问题出手,提出分阶段训练网络,加入了Unpsample(可以理解为一个超分过程)模块,逐步引导GAN图像生成走向高分辨率时代。随后就有了知名的“色情女演员被换脸”的新闻,也一举将deepfake技术推向了浪潮之巅,2018年之后,deepfake技术进一步延展到视频领域,至此,基于GAN原理的伪造技术被正式冠名以deepfake,并且已经初步具备人眼误导的能力了。
英伟达2017年提出的分阶段提升分辨率的图像生成算
与此同时,人们开始意识到deepfake的滥用危机,逐步出现了非常多的抵制声音和使用限制。但另一方面,也反向引发了一堆图像伪造检测技术的发展。而研究人员也没有闲着,尽量将研究目标向着更加健康、有正向引导价值解放设计生成力的方向发展,比如Deepmind发布的在食物、风景、动物等场景AI生成技术,以及英伟达通过GAN进行人脸表情编辑、人物风格等的编辑等。
到2019年,deepfake类的研究开始引领主流,以色列研究人员推出无需任何预训练的视频换脸技术,虽然比起精细训练的换脸技术效果仍有差距,但是他进一步降低了该类技术的使用门槛,让研究者们趋之若鹜,也给滥用放了块垫脚石。非学术界的企业、政客开始认识到该类技术的未来发展的价值和隐患,企业们纷纷为此发生站台,政府政客们纷纷出台限领法规,德国政府发表声明称“Deepfakes 会削弱整个社会对于音频和视频记录真实性的基本信任,从而削弱公开信息的可信度。”因此,这类行为可能对“社会和政治构成重大风险”。话确实在理,但也不该过度夸大其中的风险。Facebook、YouTube以及TikTok在美国大选前夕,先后放出了禁止上传转发伪造的带有讽刺等意味的媒体素材。一些初创工作则如雨后春笋般围绕deepfake类技术的由头拿到了融资,比如Assembler可辅助检测图像是否来源于deepfake技术。
就像是核技术一样,deepfake也有其双面性,都无法阻止社会要进步、技术本身要发展的诉求。2020年微软推出的 FaceShifter 以及后来迪士尼也加入战场推出DeepFaceLab工具,将生成的分辨率推到了1024*1024的像素。期间的StyleGAN系列迅猛发展,也是后续生成类算法发展的主力军技术路线。2021年同步发展的还有DeepFaceLab推出的视频换脸,对显卡算力要求很高,但对迪士尼等一票影视娱乐公司更是非常具有里程碑的技术走向。截止目前为止,虽然扩散模型在图像生成领域已经初露锋芒,但是仍旧没有完全取代GAN类的主流技术地位。直到2022年随着OpenAI发布DALL-E 2等大模型大规模崛起,在NLP领域掀起了一股强热的技术浪潮,彼时GAN类的技术确实也进入了稳定期,在效果上难以给人一眼万里的惊艳感,相较之下,SD以及MidJourney基于大模型技术的文生图效果一骑绝尘突围出来,让AIGC再度翻红,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。那么,这样的技术架构研究热潮的变化也引发了新一轮的争论:到底谁才是天花板、未来的技术路线呢?
2019年 FaceShifter框架
英伟达2019年发表的StyleGAN成为了一代经典
2020年 英伟达继续推出StyleGAN2
从底层技术理论抽象来看,GAN类技术由于数据、学习等规模有限,对知识的蒸馏提取也必将是有限,进一步导致生成效果在多样性上受限,与之对应的优势是可控可预测;而扩散大模型的技术路线则与之相对,扩散结构一方面极大程度扩展了生成结果的多样性,但往往是比较隐晦且难以控制的生成过程和效果。可以看到两种技术路线个有利弊且有相辅相成之势,于是也就有了“将GAN也变大的”的研究思路,遂提出GigaGAN。
GigaGAN效果
2023年随着扩散大模型的开源浪潮,激发了不少行业应用级的解决方案,主流的文生图策略被重点应用在了设计领域的参考图生成阶段,只要保留大概语义+风格控制即可;进一步也有类似于换装、海报生成、字体生成等对于可控要求略微提升一点的领域研究。但是针对要强做到强可控可应用的行业要求,比如前段时间大火的“妙鸭”人物写真生成,仍旧使用了基于GAN的换脸辅助技术才能达到最终的经验效果。
在未来,我们预测大模型会成为一套标准的技术手段/工具,研究者们通过这一精炼的知识提炼体系,无需直面无敌巨大的数据处理和训练规模,即可在此之上延展细分领域的技术打磨。
至此,我们针对deepfake类的技术发展史就介绍到此。下面我们会针对上述提到的GAN、扩散模型两种技术路线,展开详述技术逻辑。首先,我们定义下AI换脸的逻辑,其实很简单,就是将一个人脸(代称A)换到另一个包涵人脸的图像或者视频(代称B)中,获得一个伪造的图像或者视频(代称C),最终呈现给看官。
b) Deepfake SOTA效果的技术详述
换脸算法可以看作是一个人脸到人脸的图像翻译问题,研究者们很自然的想到引入生成对抗网络进行换脸应用。其中最著名的当属Deepfake[2]。
Deepfake的总体框架如上图所示,他的训练集需要两个域(人脸)的图像集A和B, 在使用同一编码器(权重共享)的约束下,在两个集合分别训练各自的编解码模型,推理的时候,对集合A的图像经过编码器提取特征,再输入集合B的解码器,完成人脸替换。Deepfake在收集到大量不同姿态、表情模板人脸和目标人脸数据时能够取得不错的效果,但是其局限性在于每次需要换不同的人脸时,都需要收集目标人脸数据并重新训练,对训练数据敏感,训练成本高,扩展性差。
那么是否有方法能够在训练好一个通用模型后就能支持替换任意人脸呢?Faceshifter[3]的提出很好地解决了这个疑问,其将任意图像的换脸问题转换为一个特征抽取和融合的过程,通过一个身份编码器提取目标图像的特征,该特征编码了用于区分目标图像面部身份的特征,如眼睛的形状、眼睛和嘴的距离等,再通过一个多级属性编码器,提取模板图像的多个中间特征,该特征编码了不同尺度下的模板脸属性,如面部的姿势、轮廓、表情等。最终通过一个生成器将上述两类特征进行融合,直接输出换脸的结果。该网络架构使得Faceshifer能够支持推理阶段对任意的两张图像进行换脸,极大提升了换脸效率和扩展性。Simswap[4]基于类似的流程设计了一套不同的特征提取和融合网络。效率的提升不可避免的带来了效果上的妥协,Faceshifter和Simswap在实际使用中都存在诸如肤色,大角度侧脸和遮挡等问题。
另外也有利用3D先验知识的方法,能够更好的重建表情姿态等系数,提供更为丰富的属性信息,同时对各种姿态人脸适配性更好。而生成式方法具有强大的特征提取能力,支持任意图像对的换脸。两种方法的联合也成为一个直观的优化思路,其基本思路是借助于3D可形变人脸模型(3DMM),分别提取模板脸和目标脸的ID, Color,Expression, Pose, Light等系数,进行系数替换合成后作为额外的信息输入生成式框架进行换脸。其中最新工作Facecontroller[5],HifiFace[6]就是基于此思路进行优化的换脸算法,通过更多信息的引入以及不同特征解耦模块的设计,能够提升对换脸中间态特征的控制能力,得到更高保真度的结果。
与此同时3D GAN在初露头角,但是其计算开销很大,且视觉连续性和3D形状又很难平衡。随后英伟达EG3D框架,通过设计的tri-plane解码器以及dual discrimination训练策略,得以实现从2D卷积神经网络生成并渲染3D模型,在提速的同时能够极大程度保证多视角的一致性,而后EG3D也成为了后续3D生成等各项工作的base model,比如苹果基于EG3D框架创造了FaceLit合成模型,实现2D人脸生成打光真实的3D头像能力。也为基于大模型策略的人脸伪造技术奠定了不错的基础。
CVPR23发表的一篇论文《 3D-Aware Face Swapping》,其基本思路仍旧是基于GAN的,将2D人脸先转化为3D空间,获得3D空间的隐表征,然后再在该隐表征空间上进行换脸,最终再解码回2D空间。在有效保留2D/3D人脸信息的同时,优化多视角下的一致性表现力并且不损失面部细节。
c) 本质技术的更多延展工作以及场景拓展
上述提到很多换脸技术,整体效果无论从分辨率还是从细节,仔细研究还是能看出差距的,肯定会有人疑虑,这和我看到的外面宣传的ZAO以及最近比较火的妙鸭相机效果有很大的差距,是怎么回事呢?除了“我们常看到的案例一般是被精挑细选出来的goodcase”这个原因,作为带有商业化目标的企业,给到用户的往往是一套的产品逻辑,而不只是一个换脸技术。那这里就要从产品策略、技术组合来讲述下,如何让换脸效果更清晰、更像、更容易被用户接受了。
首先我们来说下产品策略,最开始ZAO火的时候,是主打主题策略,即古风、国庆、民国等风格模版,然后用户生成的结果图,都会保留模版的风格、妆容、氛围等,效果往往是好看的、有趣的、应景的、跟我有点像的,其中好看、有趣、应景这几个属性均来自于模版属性,只有“跟我有点像”这个是用户属性,有了前面属性的加持,用户属性在对比之下则显得不那么重要了。另外针对用户上传的五花八门的图像,比如侧脸、低分辨率、过度美颜磨皮的脸等等,导致最终生成的结果也不尽如人意,超出了换脸本身模块所能处理的范畴。所以产品会一定程度约束用户上传的人脸图像,上传之前给出用户拍摄指南,上传后对图像进行质量检测等。这里为了不增加用户的交互成本,质量检测以及一些特殊处理会用视觉算法来解决,做到用户无感知。下面我们就来介绍下这里的一些技术组合拳。
为了保证效果,会自动检测用户上传的数据质量,针对不符合要求的给予指导建议重建拍摄上传,比如自动检测分辨率、模糊程度、是否有人脸及人脸比例等。其次为了减少用户的交互次数避免用户反复上传无结果的情况,针对一些好解决的图像质量问题,会通过技术手段来解决,通过超分来提升图像分辨率优化人脸模糊问题等;针对光线暗通过图像美化来提升图像质量。然后将优化后的图像进行人脸ID特征提取前的预处理,主要是检测人脸关键点区域进行裁剪、旋转矫正等然后送入到特征网络进行特征提取,再输入换脸模块模块进行swap操作,最后往往还有一步后处理操作,即针对人脸边缘的融合痕迹进行平滑处理等,针对整体结果再进行超分处理提升图像分辨率和人脸清晰度效果。有的产品策略为了保证最终结果的“美观度”也会在前后处理模块加入美颜、美妆等策略。
这里还有一个重要环节,就是针对模版的预处理。当然也可以指定任意两张图进行换脸操作,使用模版主要是将用户的上传操作转为了选区操作,降低交互成本的同时,更佳可控最终的生成效果。这样做的另一个好处是,模版可以被预处理存储,线上仅需要对用户数据进行实时预处理,这样可以极大程度减少推理的处理时间,在视频换脸场景对性能的成本的压缩更明显,用户等待时间和后台对算力要求都可以大大减少。
基于上述种种产品和技术策略,可以极大程度提升用户体验,在互动娱乐领域也的到了非常大传播效应。但是,这仅限在互动娱乐场景,仍旧无法延展到影视后期、影楼写真等刚需应用场景,归根结底还是因为上面提到的对“不像”维度的牺牲。与用户的相似度差,往往体现在脸型、面部细节、动态表情、体型体态(本文不做讨论)等。在换脸的过程中,可以理解为把模版的人脸区域涂抹掉然后把用户脸贴上去这样一个操作,那么保证面部五官的效果相比于脸型边缘过渡的artifact会弱一些,这也就导致了脸型难以获得非常相似的结果,即使利用3D策略也比较难拟合,归根结底是因为这类的技术是在模版数据上进行微调。
那么妙鸭、酷蛙等人物写真是如何做到相似度更好的效果的呢?笼统来讲,它规避了在原始模版数据上进行微调编辑的逻辑,而是先通过lora等大模型策略针对用户的一堆数据进行训练,首先生成一张和用户人物十分相似的图像的,再在该图上进行二次换脸。同时利用扩算模型的生成能力+GAN的可控编辑,取长补短。主要流程如下图:
阿里推出的基于lora和换脸技术的技术链路设计
我们再来看下最终的效果
阿里人物写真产品效果图像
未来“换脸技术”的安全发展/对抗领域发展
上面介绍了人脸深度合成技术的发展历史和最新技术进展,也结合当前一些比较热门的换脸应用接了简单的技术介绍。那么接下来也对未来的技术走向做一些简单的预判。
基本还是会围绕GAN和大模型策略两条技术路线继续发展,不同是的两条技术路线会逐步紧耦合起来,相辅相成。传统GAN由于其数据量有限那么能学到的数据分布也是有限的,往往会导致在既有的数据分布下拿到的生成结果多样性也比较有限,但是对于特定领域的任务和知识压缩也更好,得到的结果更可控且具有较好的可解释性。扩散模型则一般会利用超大数据来进行训练,获取的信息更多且由于其独特噪声编解码结构设计,使得生成结果的多样性更好,但是可控性下降也比较严重,所以也有了大票研究人员研究Lora、ControlNet、DreamBooth等在大模型基础上finetune或者插件的方式,在不过多的增加算力成本的情况下对大模型进行可控生成,但是成效有效,业界对于特定物体指定维度的生成效果依旧难以达到。可见提升可控性仍旧会是大模型研究领域未来一段时间的重头戏。两类技术的融合互补目前已经逐步开始,例如GigaGAN、StyleAvatar3D等讲GAN和diffusion技术的结合,以及将GAN的生成模块和diffusion模块相互替换优化等。
参考引用:
1、 https://github.com/modelscope/facechain
2、 https://arxiv.org/pdf/1406.2661.pdf
3、 https://github.com/apple/ml-facelit
4、 https://36kr.com/p/1783024396111488
5、 https://mingukkang.github.io/GigaGAN/