北大陈宝权组图灵班本科生:用于图像编辑的自条件生成对抗网络|SIGGRAPH 2022

简介: 北大陈宝权组图灵班本科生:用于图像编辑的自条件生成对抗网络|SIGGRAPH 2022
【新智元导读】本文是 SIGGRAPH 2022入选论文「Self-Conditioned Generative Adversarial Networks for Image Editing」的解读。


「Self-Conditioned Generative Adversarial Networks for Image Editing」由北京大学陈宝权课题组和特拉维夫大学合作,第一作者刘云蛰为北京大学图灵班2018级本科生。


论文地址:https://arxiv.org/abs/2202.04040


文章提出了一种提高生成对抗网络(GANs)在数据分布边缘的生成效果的方法。在此基础上,相关的编辑算法的效果也得到了改进。

实验证明,作者的方法成功提高了 StyleGAN 这一广泛认可的人脸生成模型在边缘侧的生成、编辑效果。


引言

生成对抗网络(GANs)已经在很多生成相关的任务中取得了卓越的成果。
近年来,许多研究人员深入挖掘 GAN 的隐空间性质,由此提出了大量的语义图像编辑方法。
然而,在传统的方法中,为了提高对数据分布主体部分的拟合效果,在数据集的分布边缘,GAN 的生成效果会显著下降。因此,以这样的 GAN 的隐空间为基础的编辑方法,在数据边缘的编辑效果较差。
例如,许多编辑算法都可以对 StyleGAN 生成的人脸的位姿进行一定程度的编辑,但当我们希望将原图片编辑到边缘位姿时,这些算法的表现就不够理想了。

图1. 人脸位姿编辑结果

上:InterFaceGAN,下:Ours


基于此问题,我们提出一种将预训练的 GAN 模型转换为自条件模型(self-conditioned model)的方法,其中条件标签来自于初始 GAN 的隐空间自身。
通过基于条件标签的重采样和对条件的显式监督训练,我们提高了边缘数据在原始数据集分布中的权重,迫使网络更加关注边缘数据,从而改进效果。

方法

图2. 训练流程图

我们的方法主要分为4步(以年龄编辑为例):

1.  找到预训练的 StyleGAN 的隐空间中,表示年龄的隐向量方向。相关算法种类很多,包括弱监督的 [1]、zero-shot 的 [2] 等等。针对不同的语义编辑,我们采用了不同算法来得到这一隐向量。

2. 将数据集中的所有图像逆映射回隐空间 [3],再将其投影到第1步中得到的隐向量方向上。根据投影长度得到每张图像的属性标签。

3. 在原始 GAN 的结构中加上条件输入,其值代表了年龄属性(数据标签来自第2步),从而这个新的网络结构可以显式控制生成图像的年龄值。

4. 根据第2步得到的标签值进行均匀采样得到新的数据集,从而提升了边缘数据的权重。例如,相比采样前,新数据集中将包含更大比重的老年人。然后开始训练。

在第1、2步中,[4] 提出,图像隐向量在特定隐方向的投影长度和标签真实值有着线性关系,且这一隐方向不拘泥于特定的隐空间。这意味着,我们不需要使用真实标签,只需利用预训练的 StyleGAN 即可近似得到与图像真实属性接近的属性标签。
同时,针对不同的属性,我们可以挑选最适合的隐方向提取算法,集众多编辑算法之长。例如,针对位姿这一全局属性,我们采用了方法 [1] 在 W 空间的隐方向;针对戴眼镜这一局部属性,我们采用了 [2] 方法提取的精细程度更高的 S 空间的隐方向。
图3. 增加条件输入后的网络结构

在第3步中,我们对网络结构的修改如上图所示,基本结构在 [5] 提出的多常量模型的基础上做了一定的修改。首先,相比于每次从多个常量中选择一个的多选器 MUX 结构,我们转而使用加性的软标签。
这赋予我们操纵属性值更大的自由度,避免了在多属性情况下指数级的属性值组合。其次,我们注意到许多属性的两个方向不具有对称性(如年龄)。因此,对于每种属性,我们在两个方向采用不同的常量,而不是仅用一个常量,通过其权值的正负号来表示两个相反的方向。

实验

我们在 FFHQ(人脸)和 AFHQ Cat 两个数据集上的实验结果如下:

定性分析中,我们的算法在边缘数据的编辑结果具有显著的提升。尤其在 AFHQ Cat 数据集的位姿属性编辑中,沿着之前的工作所得到的编辑方向和许多其他属性产生了较明显的耦合。而我们的方法很大程度上保持了猫脸的一致性。

图4. 其他编辑结果


此外,我们提出了一个定量分析编辑结果优劣程度的方法(以年龄为例)。首先,使用 GAN 随机生成大量的结果。接着,使用不同的方法,采用一定范围内的随机步长对这些结果进行编辑。
然后,使用预训练的年龄检测模型计算出每个编辑实例的真实编辑程度(如10年、20年)。最后,计算不同编辑程度下人脸 identity 的相似程度,其结果如下图所示:
图5. 相似度分析

这说明,我们的算法在大幅度的编辑时,仍能保持较好的效果。

论文链接:https://arxiv.org/abs/2202.04040

参考文献:[1] Shen, Yujun, et al. "Interpreting the latent space of gans for semantic face editing." CVPR 2020.[2] Patashnik, Or, et al. "Styleclip: Text-driven manipulation of stylegan imagery." ICCV 2021.[3] Tov, Omer, et al. "Designing an encoder for stylegan image manipulation." TOG 2021.[4] Nitzan, Yotam, et al. "LARGE: Latent-Based Regression through GAN Semantics."[5] Sendik, Omry, Dani Lischinski, and Daniel Cohen-Or. "Unsupervised k-modal styled content generation." TOG 2020.

相关文章
|
7月前
|
机器学习/深度学习 算法 网络架构
基于yolov2深度学习网络的人脸检测matlab仿真,图像来自UMass数据集
**YOLOv2算法在MATLAB2022a中实现人脸检测:** 展示6个检测结果图,利用Darknet-19进行特征提取,网络每个网格预测BBox,包含中心偏移、尺寸、置信度和类别概率。多任务损失函数结合定位、置信度和分类误差。程序加载预训练模型,遍历图像,对检测到的人脸以0.15阈值画出边界框并显示。
|
7月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估|数据分享
PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体识别混淆矩阵评估|数据分享
|
7月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【PyTorch实战演练】使用Cifar10数据集训练LeNet5网络并实现图像分类(附代码)
【PyTorch实战演练】使用Cifar10数据集训练LeNet5网络并实现图像分类(附代码)
478 0
|
1月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
59 3
|
1月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习的奇迹:如何用神经网络识别图像
【10月更文挑战第33天】在这篇文章中,我们将探索深度学习的奇妙世界,特别是卷积神经网络(CNN)在图像识别中的应用。我们将通过一个简单的代码示例,展示如何使用Python和Keras库构建一个能够识别手写数字的神经网络。这不仅是对深度学习概念的直观介绍,也是对技术实践的一次尝试。让我们一起踏上这段探索之旅,看看数据、模型和代码是如何交织在一起,创造出令人惊叹的结果。
34 0
|
2月前
|
机器学习/深度学习 PyTorch API
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
|
3月前
|
机器学习/深度学习 自然语言处理 计算机视觉
用于图像和用于自然语言的神经网络区别
主要区别总结 数据结构:图像数据是二维像素矩阵,具有空间结构;文本数据是一维序列,具有时间结构。 网络架构:图像处理常用CNN,注重局部特征提取;自然语言处理常用RNN/LSTM/Transformer,注重序列和全局依赖。 操作单元:图像处理中的卷积核在空间上操作;自然语言处理中的注意力机制在序列上操作。
28 2
|
4月前
|
机器学习/深度学习 人工智能 编解码
【神经网络】基于对抗神经网络的图像生成是如何实现的?
对抗神经网络,尤其是生成对抗网络(GAN),在图像生成领域扮演着重要角色。它们通过一个有趣的概念——对抗训练——来实现图像的生成。以下将深入探讨GAN是如何实现基于对抗神经网络的图像生成的
45 3
|
5月前
|
网络协议 Linux 开发工具
配置Linux固定IP地址,为什么要固定IP,因为他是通DHCP服务获取的,DHCP服务每次重启都会重新获取一次ip,VMware编辑中有一个虚拟网络编辑器
配置Linux固定IP地址,为什么要固定IP,因为他是通DHCP服务获取的,DHCP服务每次重启都会重新获取一次ip,VMware编辑中有一个虚拟网络编辑器
|
7月前
|
机器学习/深度学习 监控 自动驾驶
【传知代码】从零开始搭建图像去雾神经网络-论文复现
本文介绍了基于集成学习的双分支非均匀去雾神经网络的复现,该网络由迁移学习子网和数据拟合子网组成,分别处理全局表示和数据拟合。网络使用Res2Net作为编码器,并结合通道和像素注意力模块。代码可在提供的链接下载。网络在交通监控、自动驾驶、航海和目标跟踪等领域有广泛应用,通过提升图像质量来提高系统性能。实验在O-Haze、I-Haze和NH-Haze数据集上进行,展示了网络在去除雾霾方面的效果,尽管存在细节模糊和色彩饱和度低的问题。
173 1
下一篇
DataWorks