首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素(1)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

新智元新智元 2023-03-26 12:15 发表于北京



 新智元报道  

编辑:LRS

【新智元导读】GAN模型也有变大的潜力!


AIGC爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。


随着OpenAI发布DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出StyleGAN等技术。



从GAN切换到扩散模型的架构转变也引出了一个问题:能否通过扩大GAN模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗?


最近,针对增加StyleGAN架构容量会导致不稳定的问题,来自浦项科技大学(韩国)、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN,打破了模型的规模限制,展示了 GAN 仍然可以胜任文本到图像合成模型。


论文链接:https://arxiv.org/abs/2303.05511

项目链接:https://mingukkang.github.io/GigaGAN/


GigaGAN有三大优势


1. 它在推理时速度更快,相比同量级参数的Stable Diffusion-v1.5,在512分辨率的生成速度从2.9秒缩短到0.13秒。



2. 可以合成高分辨率的图像,例如,在3.66秒内合成1600万像素的图像。



3. 支持各种潜空间编辑应用程序,如潜插值、样式混合和向量算术操作等。



GAN到极限了吗?


最近发布的一系列模型,如DALL-E 2、Imagen、Parti和Stable Diffusion,开创了图像生成的新时代,在图像质量和模型灵活性方面达到了前所未有的水平。

现在占主导地位的范式「扩散模型」和「自回归模型」,都依赖于迭代推理这把双刃剑,因为迭代方法能够以简单的目标进行稳定的训练,但在推理过程中会产生更高的计算成本。


与此形成对比的是生成对抗网络(GAN),只需要一次forward pass即可生成图像,因此本质上是更高效的。


虽然GAN模型主导了生成式建模的「前一个时代」,但由于训练过程中的不稳定性,对GAN进行扩展需要仔细调整网络结构和训练考虑,因此GANs虽然在为单个或多个对象类别建模方面表现出色,但扩展到复杂的数据集上(更不用说开放世界物体生成了),仍然具有挑战性。


所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。

在这项工作中,研究人员主要解决以下问题:


GAN能否继续扩大规模并有可能从这些资源中受益?或者说GAN已经到达极限了?是什么阻碍了GAN的进一步扩展?能否克服这些障碍?


稳定训练GAN


研究人员首先用StyleGAN2进行实验,观察到简单地扩展骨干网会导致不稳定的训练,在确定了几个关键问题后,提出了在增加模型容量的同时稳定训练的技术。


首先,通过保留一个滤波器库(a bank of filters),并采取一个特定样本的线性组合来有效地扩展生成器的容量。


改编了几个在扩散模型上下文中常用的技术,并确认它们可以为GANs带来了类似的性能提升,例如将自注意力机制(仅图像)和交叉注意力(图像-文本)与卷积层交织在一起可以提高性能。


此外,研究人员重新引入了多尺度训练(multi-scaletraining),找到了一个新的方案可以改善图像-文本对齐和生成输出的低频细节。


多尺度训练可以让基于GAN的生成器更有效地使用低分辨率块中的参数,从而具有更好的图像-文本对齐和图像质量。


生成器



GigaGAN的生成器由文本编码分支(text encoding branch)、样式映射网络(style mapping network)、多尺度综合网络(multi-scale synthesis network)组成,并辅以稳定注意力(stable attention)和自适应核选择(adaptive kernel selection)。


在文本编码分支中,首先使用一个预先训练好的 CLIP 模型和一个学习的注意层 T 来提取文本嵌入,然后将嵌入过程传递给样式映射网络 M,生成与 StyleGAN 类似的样式向量 w



合成网络采用样式编码作为modulation,以文本嵌入作为注意力来生成image pyramid,在此基础上,引入样本自适应核选择算法,实现了基于输入文本条件的卷积核自适应选择。



判别器



与生成器类似,GigaGAN的判别器由两个分支组成,分别用于处理图像和文本条件。


文本分支处理类似于生成器的文本分支;图像分支接收一个image pyramid作为输入并对每个图像尺度进行独立的预测。



公式中引入了多个额外的损失函数以促进快速收敛。



相关文章
|
4天前
|
编解码 人工智能
PixArt-Σ:华为最新文生图模型,支持4K高清图像生成
【5月更文挑战第18天】华为发布PixArt-Σ模型,一款基于DiT架构的4K图像生成器,提升图像质量和文本对齐度。模型采用“弱到强训练”,以少量参数生成优质图像。引入高质量数据和高效标记压缩方法,实现超高分辨率图像生成。实验显示,PixArt-Σ在遵循复杂文本提示和图像质量上表现优异,与顶尖T2I模型相当。然而,计算资源需求大及处理复杂场景能力有限仍是待解问题。[链接](https://arxiv.org/pdf/2403.04692.pdf)
13 1
|
8天前
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
55 1
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
|
9月前
|
存储 机器学习/深度学习 编解码
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
136 0
|
机器学习/深度学习 编解码
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素(2)
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
138 0
|
12月前
|
编解码 人工智能 数据可视化
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
200 0
|
12月前
|
机器学习/深度学习 编解码 算法
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(一)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(一)
206 0
|
编解码
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
313 0
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
|
人工智能 自然语言处理 计算机视觉
消费级GPU可用,文本转图像开源新模型Stable Diffusion生成宇宙变迁大片
消费级GPU可用,文本转图像开源新模型Stable Diffusion生成宇宙变迁大片
137 0
|
机器学习/深度学习 编解码 算法
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
195 0
|
存储 机器学习/深度学习 自然语言处理
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎(1)
最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
106 0