万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布(2)

简介: 万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布

人脸复原方法总结与分类


到目前为止,研究人员提出了许多人脸复原算法来尝试解决上述的挑战。下图显示了基于深度学习的人脸复原方法的一个简明的里程碑。


如图所示,自2015年以来,基于深度学习的人脸复原方法的数量逐年增加。



这些人脸复原方法分为两类:基于先验的深度学习复原方法基于非先验的深度学习复原方法


而对于基于先验的深度学习复原方法,我们将其分为三类: 基于几何先验的深度学习复原方法,基于参考先验的深度复原方法和基于生成先验的深度复原方法。


下面对具有代表性的人脸复原算法进行简要介绍。


基于几何先验的深度复原方法(Geometric Prior Based Deep Restoration Methods)


该方法主要利用图像中人脸独特的几何形状和空间分布信息来帮助模型逐步恢复高质量的人脸。典型的几何先验有人脸landmark,人脸热图,面部解析图和面部成分。代表性工作有:


SuperFAN:是第一个同时实现人脸超分辨率和人脸landmark定位任务的端到端方法。


这个方法的核心思路是使用联合任务训练策略来引导网络学习更多的人脸几何信息来辅助模型实现高效的人脸超分辨率和人脸landmark定位。


MTUN:是一个包含两个分支网络的人脸复原方法,其中第一个分支网络用来实现人脸图像的超分辨率,第二个分支用于估计面部组成的热力图。


这个方法表明,利用低质量人脸图像中的人脸元素信息可以进一步提高算法人脸复原的性能。


PSFR-GAN:是一种基于多尺度渐进式网络的盲人脸复原方法。这个方法的核心思路是通过使用多尺度低质量人脸图像和人解析图作为输入,通过语义感知风格转换来逐步恢复出人脸的面部细节。


基于参考先验的深度复原方法(Reference Prior Based Deep Restoration Methods


以往人脸复原方法只是依靠退化图像来估计人脸先验,然而人脸图像退化过程通常是高度病态的,仅仅通过退化的图像这些方法无法获得准确的人脸先验。


因此,另外一类方法通过使用额外的高质量人脸图像来获得的面部结构或面部成分字典作为人脸参考先验来指导模型进行高效地人脸复原。代表性工作有:


GFRNet: 该网络模型由一个扭曲网络(WarpNet)和一个重构网络(RecNet)。WarpNet是来提供扭曲引导信息,目的是通过生成流场对参考图像进行扭曲来纠正面部的姿势和表情。RecNet将低质量的图像和扭曲的引导信息同时作为输入来产生高质量的人脸图像。


GWAInet: 这个工作是在GFRNet的基础上提出的,它以对抗生成的方式进行训练,以生成高质量的人脸图像。与GFRNet相比,GWAInet在训练阶段不依赖人脸标记,这个模型更加关注整个人脸区域从而增加了模型的鲁棒性。


DFDNet: 该方法首先利用K-means算法从高质量图像中为感知上显著的面部成分(即左/右眼睛、鼻子和嘴)生成深度字典;然后,从生成的组件字典中选择最相似的组件特征,将细节转移到低质量的人脸图像中,指导模型进行人脸复原。


基于生成先验的深度复原方法(Generative Prior Based Deep Restoration Methods)


随着生成对抗网络(GAN)的快速发展,研究发现,预训练的人脸GAN模型,如StyleGAN、StytleGAN2能够提供更加丰富的人脸先验(如几何和面部纹理)。


因此,研究人员开始利用GAN生成的先验辅助模型进行人脸复原。代表性工作有:


PULSE: 这个工作核心是迭代优化预训练StyleGAN的latent code, 直到输出和输入之间的距离低于阈值,从而实现高效的人脸超分辨率。


GFP-GAN: 这个工作利用预先训练的GAN模型中丰富多样的先验作为生成先验来指导模型进行盲人脸复原。这个方法主要包含一个降质去除模块和一个基于预训练GAN模型的先验模块,这两个模块通过一个latent code连接和几个通道分割空间特征转换层进行高效信息传递。


GPEN: 这个方法核心思路是有效整合GAN和DNN两中不同的框架优势实现高效的人脸复原。GPEN首先学习一个用于生成高质量人脸图像的GAN模型;然后将这个预先训练好的GAN模型嵌入到一个深度卷积网络中作为先验解码器;最后通过微调这个深度卷积网络实现人脸复原。


基于非先验的深度复原方法:(Non-prior Based Deep Restoration Methods)


虽然大多数基于深度学习的人脸复原方法可以在人脸先验的帮助下恢复满意的人脸,但依赖于人脸先验在一定程度上加剧了生成人脸图像的成本。


为了解决这一问题,另外一类方法旨在设计一个端到端的网络模型来直接学习低质量和高质量人脸图像之间的映射函数,而不需要引入任何额外的人脸先验。代表性工作有:


BCCNN: 一种用于人脸超分辨的双通道卷积神经网络模型。它由一个特征提取器和一个图像生成器组成,其中特征提取器从低分辨率人脸图像中提取鲁棒的人脸表示而图像生成器自适应地将提取的人脸表示与输入的人脸图像进行融合,生成高分辨率图像。


HiFaceGAN: 这个方法将人脸复原问题转化为语义引导的生成问题,并设计了HifaceGAN模型来实现人脸复原。这个网络模型是一个包含多个协作抑制模块和补充模块的多阶段框架,这种结构设计减少了模型对退化先验或训练结构的依赖性。


RestoreFormer: 这是一种基于Transformer的端到端人脸复原方法。它主要探索了对上下文信息建模的全空间注意力机制。


这个方法核心思路主要有两点,第一个是提出了一个多头交叉注意力层来学习损坏查询和高质量键值对之间的全空间交互。第二点是,注意力机制中的key-value 对是从高质量字典中采样获得的,它蕴含高质量的人脸特征。


下图全面地总结了近年来基于深度学习的人脸复原方法的特点。



其中Plain表示基于非先验的深度复原方法,Facial component 和Geometric prior 表示基于几何先验的深度复原的两类方法,Reference prior表示基于参考先验的深度复原方法,Generative prior 表示基于非先验的深度复原方法,Deep CNN, GAN, ViT分别表示模型使用深度卷积神经网络,生成对抗网络和Visual Transformer网络结构。


技术发展回顾


这个部分全面地回顾了基于深度学习的人脸复原方法的技术发展过程,主要从以下几个方面进行总结和分析:网络模型的基本架构、使用的基本模块、模型使用的损失函数和人脸相关的基准数据集。


网络架构


现有基于深度学习的人脸复原方法的网络架构主要分为三类:基于先验引导的方法,基于GAN网络结构的方法和基于ViT网络结构的方法。因此,我们将在本节讨论这些发展。


基于先验引导的方法


这类方法主要可以分为四种,分别为基于前置先验的人脸复原方法(Pre-prior face restoration method),联合先验估计和人脸复原的方法(Joint prior face restoration method),基于中间先验的人脸复原方法(Pre-prior face restoration method),基于参考先验的人脸复原方法(Reference-prior face restoration method)。


以上四种方法的简明结构图如下所示:


基于前置先验的人脸复原方法通常先使用先验估计网络(如人脸先验估计网络或预训练的人脸GAN模型)从低质量输入图像中估计人脸先验,然后利用一个网络利用人脸先验和人脸图像生成高质量的人脸。


典型的方法如下图所示,研究人员设计了一个人脸解析网络,先从输入模糊人脸图像中提取人脸语义标签,然后将模糊图像和人脸语义标签同时输入一个去模糊网络中来生成清晰的人脸图像。



联合先验估计和人脸复原方法主要是挖掘了人脸先验估计任务和人脸复原任务之间的互补性关系。这类方法通常联合训练人脸复原网络和先验估计网络,因此这类方法同时兼顾了两个子任务的优点,这能直接提高人脸复原任务的性能。


典型的方法如下图所示,研究人员提出了一种联合人脸对齐和人脸超分辨率的网络模型,该方法共同估计人脸的landmark 位置和超分辨率人脸图像。



基于中间先验的人脸复原方法的核心思路是首先使用一个复原网络生成粗人脸图像,然后从粗图像中估计人脸先验信息,这样比直接从输入的低质量的图像可以获得更精确的先验信息。


典型的方法如下图所示,研究人员提出了FSRNet网络模型,这个模型在网络中间进行人脸先验估计。


具体的,FSRNet先用一个粗SR网络对图像进行粗恢复;然后分别用一个细SR编码器和一个先验估计网络对粗结果图像进行先验估计和细化;最后将图像细化特征和先验信息同时输入到一个精细SR解码器,恢复出最终的结果。


相关文章
|
1月前
|
测试技术 网络架构 计算机视觉
中科院领衔发表首篇基于扩散模型的图像编辑综述
【2月更文挑战第17天】中科院领衔发表首篇基于扩散模型的图像编辑综述
20 1
中科院领衔发表首篇基于扩散模型的图像编辑综述
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐
|
9月前
|
人工智能 自然语言处理 运维
复旦发布国内首个类ChatGPT模型MOSS,和《流浪地球》有关?
复旦发布国内首个类ChatGPT模型MOSS,和《流浪地球》有关?
|
11月前
|
机器学习/深度学习 数据采集 算法
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法
南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法
174 0
|
11月前
|
机器学习/深度学习 编解码 算法
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
112 0
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布(3)
万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布
199 0
|
11月前
|
算法 机器人 数据建模
中国学者开发看护机器人仿真环境,还做了真人实验,获IROS 2022最佳论文之一
中国学者开发看护机器人仿真环境,还做了真人实验,获IROS 2022最佳论文之一
101 0
|
11月前
|
机器学习/深度学习 传感器 存储
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
174 0
|
11月前
|
机器学习/深度学习 数据可视化 数据挖掘
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
147 0
2021年度训练联盟热身训练赛第一场——Weird Flecks, But OK(最小圆覆盖)
2021年度训练联盟热身训练赛第一场——Weird Flecks, But OK(最小圆覆盖)
60 0

热门文章

最新文章