GAN 生成高分辨率图像的能力正在彻底改变图像合成和处理领域。2019 年 Karras 等人提出 StyleGAN ,该技术走到了图像合成的最前沿,被公认为是最先进的高质量图像生成器。我们先来看下 StyleGAN 的合成效果:
StyleGAN 不受监督,但它的潜在空间却表现的令人惊讶。事实证明,StyleGAN 性能非常好,甚至支持线性潜在算法。例如,它支持在一组潜在代码中添加一个表示年龄的向量,使图像中人物年龄看起来更年长。研究证明,StyleGAN 不但可以线性的排列潜在空间,也可以以一种解耦(disentangled)的方式,其遍历方向仅改变特定的图像属性,而不影响其他属性。这些属性包括全局、与领域无关的方面(例如视角),但也包括特定领域的属性,例如人脸的表情或性别、汽车颜色、狗品种等(参见图 1 和图 2)。
在本文中,来自特拉维夫大学的多位研究者撰文描述了 StyleGAN 目前取得的成功,并分析了其存在的严重缺陷。该研究首先讨论网络架构本身,并分析了 StyleGAN 自出现以来在先进生成模型中所起的作用。之后,该研究讨论了训练 StyleGAN 所需的资源,并列出减少、复用和回收这些资源的一些研究。
论文地址:https://arxiv.org/pdf/2202.14020.pdf
StyleGAN 架构、方法和应用中的最新技术
本文共分为 8 个小节:在 2 节中,该研究将描述了 StyleGAN 的架构是如何构建的,并试图理解为什么这种架构会引发如此尖端的新兴技术,以及如何改进架构以满足特定需求。
第 3 节讨论了 StyleGAN 的潜在空间,展示了研究者如何找到线性编辑方向并将其用于强大的语义编辑。传统上一般的 GAN,特别是 StyleGAN,可用于简单地生成不同风格的图像。这些可以作为下游训练的一种数据增强形式(参见第 6 节)。然而,研究已经表明 GAN 倾向于平滑地排列其潜在空间,即潜在空间中的接近区域描绘出相似的图像。
第 4 节主要讨论了 StyleGAN 逆映射(inversion)。为了在 StyleGAN 域中表达给定的真实图像,研究者提出了许多不同的方法,所有这些方法都深入分析和利用了生成器架构。一些研究者提出了潜在代码优化,应用数据驱动推理等不同方法,或者寻求适当的输入种子向量,还有一些研究在推理路径的其他点与 StyleGAN 交互,从而大大提高了网络表达能力。StyleGAN 潜在空间的良好行为性质在远离其良好采样分布的区域中会减少。这在实践中意味着给定真实图像,其重建质量(或失真)是以可编辑性为代价的。在这种重建 - 可编辑性权衡中找到不同的期望点是本节主要讨论点。
将图像编码到 StyleGAN 潜在空间比图像逆映射本身具有更多优点。在许多应用程序中,被编码的图像不是所需的潜在代码应该表示的图像。这种编码允许各种图像到图像的转换方法。在第 4 节中,该研究介绍并讨论了这种有监督和无监督的方法。
在第 6 节中,该研究展示了 StyleGAN 生成能力,并讨论了 StyleGAN 可以利用的判别能力,这包括可解释性、回归、分割等方面的应用。
在大多数工作和应用中,预训练 StyleGAN 生成器保持固定。然而,在第 7 节中,该研究展示了微调 StyleGAN 生成器并修改其权重以弥合训练域(域内)或目标域之间的差距的最新工作。每个部分都针对新手以及经验丰富的研究者,并总结了最成熟和最有前途的方法,以及如何使用它们。
下面我们将介绍论文中部分章节内容。
StyleGAN 架构的发展
StyleGAN1。基于风格的生成器架构,或简称 StyleGAN,最初由 Karras 等人在 2019 年提出。StyleGAN 架构的核心是风格调制层(style modulation layers),StyleGAN 的名字就是从这里得来的, 其能够生成高质量的图像数据并且做到了高层特征可控。
StyleGAN2。随着 StyleGAN 广泛使用,模型固有的缺点暴露出来,例如伪影问题。此外,研究者还观察到一种纹理粘附效应,即生成图像的某些属性,如牙齿或眼睛,会显示出强烈的空间偏差,即使通过潜在空间插值也难以解决。在后续工作中,Karras 等人的研究可以识别伪影来源,并重新设计算法以改进网络,StyleGAN2 着重处理 StyleGAN 伪影问题,能够生成质量更好的图像数据。
StyleGAN3。起初,StyleGAN2 似乎解决了纹理粘连问题。然而,研究者通过细致的分析发现,StyleGAN2 虽然已经解决了嘴巴或眼睛等大尺寸物体,但在检查头发或胡须等更精细的细节时仍然存在问题。为了解决这个问题,Karras 等人寻找空间信息可能泄漏到卷积操作中的各种来源,目的是完全恢复网络的平移不变性。StyleGAN3 的新颖架构 [Karras et al. 2021] 带来了显着的改进,使得插值更加平滑。
StyleGAN3 对生成细节的把控令人惊叹,它从根本上解决了 StyleGAN2 图像坐标与特征粘连的问题,实现了真正的图像平移、旋转等不变性,大幅提高了图像合成质量。
当然,训练模型离不开数据,当代机器学习一个公开秘密是,许多模型在标准基准上表现出色,但无法推广到实验室外,StyleGAN 也不例外。在 StyleGAN 中,学习域似乎需要严格的结构,而数据域应该是凸的,即在每两个点之间应该有有效的样本进行插值 。在最近的研究中,Sauer 等人证明,通过扩展模型可以克服数据面临的挑战,但 StyleGAN 独特的潜在空间属性是否能通过这种修改持续存在仍是一个悬而未决的问题。将来,我们可能会看到更多解决显式数据问题的工作,即尝试将 StyleGAN 应用于其他类型数据的工作,或者通过在训练期间删除或添加示例以使数据的 landscape 更加平滑,或者用更直接地方式处理数据中的多模态,或者通过将更精细的注意力机制整合到架构中。
与普通的 GAN 不同,StyleGAN 有不止一个固有的潜在空间。此外,为了增加 StyleGAN 的表现力,通常会使用这些空间的扩展,如图 6。
潜在空间编辑
也许 GAN 学习最令人兴奋的方面是潜在空间排列方式。传统上,一般的 GAN,特别是 StyleGAN,可以用来简单地生成各种各样的同类图像。这些可以作为下游训练数据增强的一种形式 (见第 6 节)。然而,已有研究表明,GAN 倾向于平滑地排列其潜在空间,即潜在空间中的封闭区域描绘相似的图像。
事实证明,在潜在空间中遍历也可以得到所需的语义变化。这些变化包括视点、照明条件和特定于领域的属性(如人脸的表情、汽车的颜色或建筑物的宽度)的变化。当然,最理想的编辑是解耦编辑,即那些改变一个属性而不影响其他属性的编辑。这样强大的编辑工具的应用是无止境的,从自动添加微笑到面部图像,通过室内设计探索,快速的汽车设计。
StyleGAN 在结构良好的数据上运行得最好,当对这些数据进行训练时,StyleGAN 以一种无监督的方式构建了一个高度解耦的潜在空间,仅仅凭借归纳偏差。在本研究中,编辑艺术是多样化的,呈现出从不同领域借来的创造性方法。
应用程序
虽然 GAN 具有很强的生成能力,尤其是 StyleGAN,但人们可能会问,使用 GAN 可以解决哪些非生成任务。在其最基本的形式中,GAN 生成大量图像的能力,基本上都是从相同的目标分布重新采样的,可用于下游训练任务的数据丰富和增强。事实上,早期研究提出使用 GAN 作为增强工具来生成更多的训练数。
利用 GAN 的编辑能力,Chai 等人通过在测试时增强输入图像,提出了一种用于图像分类的集成方法。输入被投影到预训练生成器的潜在空间中,并对其应用风格混合等编辑操作,生成不同的视图。之后生成的图像输入分类网络,模型的最终预测基于对所有图像的网络预测的集合。与深度学习中的传统集成不同,其中多个模型的预测被组合以产生最终结果,该方法建议使用同一图像的不同视图(同时保留其身份)并在测试时集成分类器对图像的预测。
为了以新的方式利用 StyleGAN 的语义理解,Peebles 等人提出了一种新的框架来处理密集视觉对齐的任务。如图 11c 所示。一旦两种操作收敛到一个视点,就可以使用 STN 来对齐真实图像。
另一个关键方面是避免扭曲图像的未编辑部分,通常称为保留原始身份。例如,对人脸微笑的编辑不应改变发型等属性。一些研究专注于面部图像,其中可以使用面部识别网络评估身份。
另一个问题是图像质量。StyleGAN 的主要优势之一是高质量的视觉效果,编辑方法应该致力于保持这种效果。然而,编辑可能会导致编辑后的数据与真实数据之间存在较大的偏差,从而导致评估不准确。如果可能,可以使用分类器或回归模型来平衡图像集合与某些属性之间的关系。Zhu 等人提出了评估插值质量方法,他们建议,即使对于插值图像,良好的可编辑性也应该保留 StyleGAN 的高质量,他们使用 FID 度量。最后,一些研究利用用户研究来评估编辑质量,尽管这种方法对编辑过程有深刻的理解,但它会消耗大量资源并且容易受到不必要的操作。直到今天,对于潜在的操作质量,还没有被广泛接受的评估指标。