首个超大规模GAN模型！生成速度比Diffusion快20+倍，0.13秒出图，最高支持1600万像素（1）

2023-05-12 119

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 首个超大规模GAN模型！生成速度比Diffusion快20+倍，0.13秒出图，最高支持1600万像素

首个超大规模GAN模型！生成速度比Diffusion快20+倍，0.13秒出图，最高支持1600万像素

新智元新智元 2023-03-26 12:15 发表于北京

新智元报道

编辑：LRS

【新智元导读】GAN模型也有变大的潜力！

AIGC爆火的背后，从技术的角度来看，是图像生成模型的架构发生了巨大的变化。

随着OpenAI发布DALL-E 2，自回归和扩散模型一夜之间成为大规模生成模型的新标准，而在此之前，生成对抗网络（GAN）一直都是主流选择，并衍生出StyleGAN等技术。

从GAN切换到扩散模型的架构转变也引出了一个问题：能否通过扩大GAN模型的规模，比如说在 LAION 这样的大型数据集中进一步提升性能吗？

最近，针对增加StyleGAN架构容量会导致不稳定的问题，来自浦项科技大学（韩国）、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN，打破了模型的规模限制，展示了 GAN 仍然可以胜任文本到图像合成模型。

论文链接：https://arxiv.org/abs/2303.05511

项目链接：https://mingukkang.github.io/GigaGAN/

GigaGAN有三大优势。

1. 它在推理时速度更快，相比同量级参数的Stable Diffusion-v1.5，在512分辨率的生成速度从2.9秒缩短到0.13秒。

2. 可以合成高分辨率的图像，例如，在3.66秒内合成1600万像素的图像。

3. 支持各种潜空间编辑应用程序，如潜插值、样式混合和向量算术操作等。

GAN到极限了吗？

最近发布的一系列模型，如DALL-E 2、Imagen、Parti和Stable Diffusion，开创了图像生成的新时代，在图像质量和模型灵活性方面达到了前所未有的水平。

现在占主导地位的范式「扩散模型」和「自回归模型」，都依赖于迭代推理这把双刃剑，因为迭代方法能够以简单的目标进行稳定的训练，但在推理过程中会产生更高的计算成本。

与此形成对比的是生成对抗网络（GAN），只需要一次forward pass即可生成图像，因此本质上是更高效的。

虽然GAN模型主导了生成式建模的「前一个时代」，但由于训练过程中的不稳定性，对GAN进行扩展需要仔细调整网络结构和训练考虑，因此GANs虽然在为单个或多个对象类别建模方面表现出色，但扩展到复杂的数据集上（更不用说开放世界物体生成了），仍然具有挑战性。

所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。

在这项工作中，研究人员主要解决以下问题：

GAN能否继续扩大规模并有可能从这些资源中受益？或者说GAN已经到达极限了？是什么阻碍了GAN的进一步扩展？能否克服这些障碍？

稳定训练GAN

研究人员首先用StyleGAN2进行实验，观察到简单地扩展骨干网会导致不稳定的训练，在确定了几个关键问题后，提出了在增加模型容量的同时稳定训练的技术。

首先，通过保留一个滤波器库（a bank of filters），并采取一个特定样本的线性组合来有效地扩展生成器的容量。

改编了几个在扩散模型上下文中常用的技术，并确认它们可以为GANs带来了类似的性能提升，例如将自注意力机制（仅图像）和交叉注意力（图像-文本）与卷积层交织在一起可以提高性能。

此外，研究人员重新引入了多尺度训练（multi-scaletraining），找到了一个新的方案可以改善图像-文本对齐和生成输出的低频细节。

多尺度训练可以让基于GAN的生成器更有效地使用低分辨率块中的参数，从而具有更好的图像-文本对齐和图像质量。

生成器

GigaGAN的生成器由文本编码分支（text encoding branch）、样式映射网络（style mapping network）、多尺度综合网络（multi-scale synthesis network）组成，并辅以稳定注意力（stable attention）和自适应核选择（adaptive kernel selection）。

在文本编码分支中，首先使用一个预先训练好的 CLIP 模型和一个学习的注意层 T 来提取文本嵌入，然后将嵌入过程传递给样式映射网络 M，生成与 StyleGAN 类似的样式向量 w