万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布(2)

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: 万字解读首篇「人脸复原」综述!南大、中山、澳国立、帝国理工等联合发布

人脸复原方法总结与分类


到目前为止,研究人员提出了许多人脸复原算法来尝试解决上述的挑战。下图显示了基于深度学习的人脸复原方法的一个简明的里程碑。


如图所示,自2015年以来,基于深度学习的人脸复原方法的数量逐年增加。



这些人脸复原方法分为两类:基于先验的深度学习复原方法基于非先验的深度学习复原方法


而对于基于先验的深度学习复原方法,我们将其分为三类: 基于几何先验的深度学习复原方法,基于参考先验的深度复原方法和基于生成先验的深度复原方法。


下面对具有代表性的人脸复原算法进行简要介绍。


基于几何先验的深度复原方法(Geometric Prior Based Deep Restoration Methods)


该方法主要利用图像中人脸独特的几何形状和空间分布信息来帮助模型逐步恢复高质量的人脸。典型的几何先验有人脸landmark,人脸热图,面部解析图和面部成分。代表性工作有:


SuperFAN:是第一个同时实现人脸超分辨率和人脸landmark定位任务的端到端方法。


这个方法的核心思路是使用联合任务训练策略来引导网络学习更多的人脸几何信息来辅助模型实现高效的人脸超分辨率和人脸landmark定位。


MTUN:是一个包含两个分支网络的人脸复原方法,其中第一个分支网络用来实现人脸图像的超分辨率,第二个分支用于估计面部组成的热力图。


这个方法表明,利用低质量人脸图像中的人脸元素信息可以进一步提高算法人脸复原的性能。


PSFR-GAN:是一种基于多尺度渐进式网络的盲人脸复原方法。这个方法的核心思路是通过使用多尺度低质量人脸图像和人解析图作为输入,通过语义感知风格转换来逐步恢复出人脸的面部细节。


基于参考先验的深度复原方法(Reference Prior Based Deep Restoration Methods


以往人脸复原方法只是依靠退化图像来估计人脸先验,然而人脸图像退化过程通常是高度病态的,仅仅通过退化的图像这些方法无法获得准确的人脸先验。


因此,另外一类方法通过使用额外的高质量人脸图像来获得的面部结构或面部成分字典作为人脸参考先验来指导模型进行高效地人脸复原。代表性工作有:


GFRNet: 该网络模型由一个扭曲网络(WarpNet)和一个重构网络(RecNet)。WarpNet是来提供扭曲引导信息,目的是通过生成流场对参考图像进行扭曲来纠正面部的姿势和表情。RecNet将低质量的图像和扭曲的引导信息同时作为输入来产生高质量的人脸图像。


GWAInet: 这个工作是在GFRNet的基础上提出的,它以对抗生成的方式进行训练,以生成高质量的人脸图像。与GFRNet相比,GWAInet在训练阶段不依赖人脸标记,这个模型更加关注整个人脸区域从而增加了模型的鲁棒性。


DFDNet: 该方法首先利用K-means算法从高质量图像中为感知上显著的面部成分(即左/右眼睛、鼻子和嘴)生成深度字典;然后,从生成的组件字典中选择最相似的组件特征,将细节转移到低质量的人脸图像中,指导模型进行人脸复原。


基于生成先验的深度复原方法(Generative Prior Based Deep Restoration Methods)


随着生成对抗网络(GAN)的快速发展,研究发现,预训练的人脸GAN模型,如StyleGAN、StytleGAN2能够提供更加丰富的人脸先验(如几何和面部纹理)。


因此,研究人员开始利用GAN生成的先验辅助模型进行人脸复原。代表性工作有:


PULSE: 这个工作核心是迭代优化预训练StyleGAN的latent code, 直到输出和输入之间的距离低于阈值,从而实现高效的人脸超分辨率。


GFP-GAN: 这个工作利用预先训练的GAN模型中丰富多样的先验作为生成先验来指导模型进行盲人脸复原。这个方法主要包含一个降质去除模块和一个基于预训练GAN模型的先验模块,这两个模块通过一个latent code连接和几个通道分割空间特征转换层进行高效信息传递。


GPEN: 这个方法核心思路是有效整合GAN和DNN两中不同的框架优势实现高效的人脸复原。GPEN首先学习一个用于生成高质量人脸图像的GAN模型;然后将这个预先训练好的GAN模型嵌入到一个深度卷积网络中作为先验解码器;最后通过微调这个深度卷积网络实现人脸复原。


基于非先验的深度复原方法:(Non-prior Based Deep Restoration Methods)


虽然大多数基于深度学习的人脸复原方法可以在人脸先验的帮助下恢复满意的人脸,但依赖于人脸先验在一定程度上加剧了生成人脸图像的成本。


为了解决这一问题,另外一类方法旨在设计一个端到端的网络模型来直接学习低质量和高质量人脸图像之间的映射函数,而不需要引入任何额外的人脸先验。代表性工作有:


BCCNN: 一种用于人脸超分辨的双通道卷积神经网络模型。它由一个特征提取器和一个图像生成器组成,其中特征提取器从低分辨率人脸图像中提取鲁棒的人脸表示而图像生成器自适应地将提取的人脸表示与输入的人脸图像进行融合,生成高分辨率图像。


HiFaceGAN: 这个方法将人脸复原问题转化为语义引导的生成问题,并设计了HifaceGAN模型来实现人脸复原。这个网络模型是一个包含多个协作抑制模块和补充模块的多阶段框架,这种结构设计减少了模型对退化先验或训练结构的依赖性。


RestoreFormer: 这是一种基于Transformer的端到端人脸复原方法。它主要探索了对上下文信息建模的全空间注意力机制。


这个方法核心思路主要有两点,第一个是提出了一个多头交叉注意力层来学习损坏查询和高质量键值对之间的全空间交互。第二点是,注意力机制中的key-value 对是从高质量字典中采样获得的,它蕴含高质量的人脸特征。


下图全面地总结了近年来基于深度学习的人脸复原方法的特点。



其中Plain表示基于非先验的深度复原方法,Facial component 和Geometric prior 表示基于几何先验的深度复原的两类方法,Reference prior表示基于参考先验的深度复原方法,Generative prior 表示基于非先验的深度复原方法,Deep CNN, GAN, ViT分别表示模型使用深度卷积神经网络,生成对抗网络和Visual Transformer网络结构。


技术发展回顾


这个部分全面地回顾了基于深度学习的人脸复原方法的技术发展过程,主要从以下几个方面进行总结和分析:网络模型的基本架构、使用的基本模块、模型使用的损失函数和人脸相关的基准数据集。


网络架构


现有基于深度学习的人脸复原方法的网络架构主要分为三类:基于先验引导的方法,基于GAN网络结构的方法和基于ViT网络结构的方法。因此,我们将在本节讨论这些发展。


基于先验引导的方法


这类方法主要可以分为四种,分别为基于前置先验的人脸复原方法(Pre-prior face restoration method),联合先验估计和人脸复原的方法(Joint prior face restoration method),基于中间先验的人脸复原方法(Pre-prior face restoration method),基于参考先验的人脸复原方法(Reference-prior face restoration method)。


以上四种方法的简明结构图如下所示:


基于前置先验的人脸复原方法通常先使用先验估计网络(如人脸先验估计网络或预训练的人脸GAN模型)从低质量输入图像中估计人脸先验,然后利用一个网络利用人脸先验和人脸图像生成高质量的人脸。


典型的方法如下图所示,研究人员设计了一个人脸解析网络,先从输入模糊人脸图像中提取人脸语义标签,然后将模糊图像和人脸语义标签同时输入一个去模糊网络中来生成清晰的人脸图像。



联合先验估计和人脸复原方法主要是挖掘了人脸先验估计任务和人脸复原任务之间的互补性关系。这类方法通常联合训练人脸复原网络和先验估计网络,因此这类方法同时兼顾了两个子任务的优点,这能直接提高人脸复原任务的性能。


典型的方法如下图所示,研究人员提出了一种联合人脸对齐和人脸超分辨率的网络模型,该方法共同估计人脸的landmark 位置和超分辨率人脸图像。



基于中间先验的人脸复原方法的核心思路是首先使用一个复原网络生成粗人脸图像,然后从粗图像中估计人脸先验信息,这样比直接从输入的低质量的图像可以获得更精确的先验信息。


典型的方法如下图所示,研究人员提出了FSRNet网络模型,这个模型在网络中间进行人脸先验估计。


具体的,FSRNet先用一个粗SR网络对图像进行粗恢复;然后分别用一个细SR编码器和一个先验估计网络对粗结果图像进行先验估计和细化;最后将图像细化特征和先验信息同时输入到一个精细SR解码器,恢复出最终的结果。


相关文章
|
Windows
Coze开源软件Windows客户端-coze_desk
Coze开源软件Windows客户端-coze_desk
1689 0
|
存储 人工智能 文件存储
聊一聊并行文件系统的客户端优化之道
本文主要介绍阿里云CPFS是如何应对挑战以及对并行文件系统的技术探索与落地实践。
43124 5
聊一聊并行文件系统的客户端优化之道
|
6月前
|
人工智能 知识图谱
SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务
SVFR 是一个通用视频人脸修复框架,支持人脸修复、着色和修复任务,基于 Stable Video Diffusion 技术,提供高质量的视频修复效果。
421 23
SVFR:全能视频人脸修复框架,支持提升清晰度、色彩填充和缺失补全等图像修复任务
|
7月前
|
供应链 监控 数据可视化
探索 Leangoo 在电商新品运营中的创新应用与价值
Leangoo 提供了一套全面高效的电商新品运营解决方案,涵盖项目规划、营销推广、供应链管理及数据分析等方面,通过任务卡、甘特图等工具实现跨部门协作与进度追踪,助力电商企业在竞争中脱颖而出。
探索 Leangoo 在电商新品运营中的创新应用与价值
|
8月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
324 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
8月前
|
测试技术 Go C#
C#一分钟浅谈:ReSharper 插件增强开发效率
【10月更文挑战第25天】ReSharper 是 JetBrains 开发的一款 Visual Studio 插件,旨在提高 .NET 开发者的生产力。它通过代码分析、重构、导航等功能,帮助开发者避免常见错误,提升代码质量和开发效率。本文将通过具体代码案例,详细介绍 ReSharper 的常见功能及其应用。
438 1
|
11月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之怎么设置参数获取上个月最后一天
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
193 1
|
数据挖掘 Java 网络安全
学生免费获取PyCharm专业版
学生免费获取PyCharm专业版
1320 1
|
安全 算法 网络安全
网络安全与信息安全:漏洞、加密和意识的重要性
在数字化时代,网络安全和信息安全已成为全球关注的焦点。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性。我们将通过数据和研究来揭示网络攻击的严重性,并解释如何通过强化加密技术和提高安全意识来防止这些攻击。最后,我们将强调每个个体在保护网络安全中的责任,并呼吁大家共同努力,维护一个安全的网络环境。
95 27
|
人工智能 自然语言处理
论文介绍:大型语言模型作为优化器
【2月更文挑战第29天】OPRO研究利用大型语言模型(LLMs)作为优化器解决各种问题,将复杂优化转化为自然语言描述,通过设计元提示引导LLMs生成解决方案。在数学优化和自然语言处理任务中展现出潜力,尤其在旅行商问题上优于其他模型。然而,LLMs可能陷入局部最优解且存在数学计算错误。尽管有挑战,OPRO仍优于传统优化方法,为LLMs应用开辟新方向。论文链接:https://arxiv.org/abs/2309.03409
150 1
论文介绍:大型语言模型作为优化器

热门文章

最新文章