实验结果
对大规模文本-图像合成任务进行系统的、受控的评估是困难的,因为大多数现有的模型并不公开可用,即使训练代码可用,从头开始训练一个新模型的成本也会过高。
研究人员选择在实验中与Imagen、Latent Diffusion Models(LDM)、Stable Diffusion和Parti进行对比,同时承认在训练数据集、迭代次数、批量大小和模型大小方面存在相当大的差异。
对于定量评价指标,主要使用Frechet Inception Distance(FID)来衡量输出分布的真实性,并使用CLIP分数来评价图像-文本对齐。
文中进行了五个不同的实验:
1. 通过逐步纳入每个技术组件来展示提出方法的有效性;
2. 文本-图像合成结果表明,GigaGAN表现出与稳定扩散(SD-v1.5)相当的FID,同时生成的结果比扩散或自回归模型快数百倍;
3. 将GigaGAN与基于蒸馏的扩散模型进行对比,显示GigaGAN可以比基于蒸馏的扩散模型更快地合成更高质量的图像;
4. 验证了GigaGAN的上采样器在有条件和无条件的超分辨率任务中比其他上采样器的优势;
5. 结果表明大规模GANs仍然享有GANs的连续和分解潜伏空间的操作,实现了新的图像编辑模式。
经过调参,研究人员在大规模的数据集,如LAION2B-en上实现了稳定和可扩展的十亿参数GAN(GigaGAN)的训练。
并且该方法采用了多阶段的方法,首先在64×64下生成,然后上采样到512×512,这两个网络是模块化的,而且足够强大,能够以即插即用的方式使用。
结果表明,尽管在训练时从未见过扩散模型的图像,但基于文本条件的GAN上采样网络可以作为基础扩散模型(如DALL-E 2)的高效、高质量的上采样器。
这些成果加在一起,使得GigaGAN远远超过了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。
虽然GiGAN的10亿参数量仍然低于最近发布的最大合成模型,如Imagen(3B)、DALL-E 2(5.5B)和Parti(20B),但目前还没有观察到关于模型大小的质量饱和度。
GigaGAN在COCO2014数据集上实现了9.09的zero-shot FID,低于DALL-E 2、Parti-750M和Stable Diffusion的FID
应用场景
提示插值(Prompt interpolation)
GigaGAN可以在提示之间平滑地插值,下图中的四个角是由同一潜码生成,但带有不同的文本提示。
解耦提示混合(Disentangled prompt mixing)
GigaGAN 保留了一个分离的潜空间,使得能够将一个样本的粗样式与另一个样本的精细样式结合起来,并且GigaGAN 可以通过文本提示直接控制样式。
粗到精风格交换(Coarse-to-fine sytle swapping)
基于 GAN 的模型架构保留了一个分离的潜在空间,使得能够将一个样本的粗样式与另一个样本的精样式混合在一起。