首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素(2)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素

实验结果


对大规模文本-图像合成任务进行系统的、受控的评估是困难的,因为大多数现有的模型并不公开可用,即使训练代码可用,从头开始训练一个新模型的成本也会过高。


研究人员选择在实验中与Imagen、Latent Diffusion Models(LDM)、Stable Diffusion和Parti进行对比,同时承认在训练数据集、迭代次数、批量大小和模型大小方面存在相当大的差异。


对于定量评价指标,主要使用Frechet Inception Distance(FID)来衡量输出分布的真实性,并使用CLIP分数来评价图像-文本对齐。


文中进行了五个不同的实验:


1. 通过逐步纳入每个技术组件来展示提出方法的有效性;



2. 文本-图像合成结果表明,GigaGAN表现出与稳定扩散(SD-v1.5)相当的FID,同时生成的结果比扩散或自回归模型快数百倍;



3. 将GigaGAN与基于蒸馏的扩散模型进行对比,显示GigaGAN可以比基于蒸馏的扩散模型更快地合成更高质量的图像;



4. 验证了GigaGAN的上采样器在有条件和无条件的超分辨率任务中比其他上采样器的优势;



5. 结果表明大规模GANs仍然享有GANs的连续和分解潜伏空间的操作,实现了新的图像编辑模式。



经过调参,研究人员在大规模的数据集,如LAION2B-en上实现了稳定和可扩展的十亿参数GAN(GigaGAN)的训练。



并且该方法采用了多阶段的方法,首先在64×64下生成,然后上采样到512×512,这两个网络是模块化的,而且足够强大,能够以即插即用的方式使用。


结果表明,尽管在训练时从未见过扩散模型的图像,但基于文本条件的GAN上采样网络可以作为基础扩散模型(如DALL-E 2)的高效、高质量的上采样器。



这些成果加在一起,使得GigaGAN远远超过了以前的GAN模型,比StyleGAN2大36倍,比StyleGAN-XL和XMC-GAN大6倍。



虽然GiGAN的10亿参数量仍然低于最近发布的最大合成模型,如Imagen(3B)、DALL-E 2(5.5B)和Parti(20B),但目前还没有观察到关于模型大小的质量饱和度。


GigaGAN在COCO2014数据集上实现了9.09的zero-shot FID,低于DALL-E 2、Parti-750M和Stable Diffusion的FID


应用场景


提示插值(Prompt interpolation)


GigaGAN可以在提示之间平滑地插值,下图中的四个角是由同一潜码生成,但带有不同的文本提示。



解耦提示混合(Disentangled prompt mixing)


GigaGAN 保留了一个分离的潜空间,使得能够将一个样本的粗样式与另一个样本的精细样式结合起来,并且GigaGAN 可以通过文本提示直接控制样式。



粗到精风格交换(Coarse-to-fine sytle swapping)


基于 GAN 的模型架构保留了一个分离的潜在空间,使得能够将一个样本的粗样式与另一个样本的精样式混合在一起。



参考资料:https://mingukkang.github.io/GigaGAN/

相关文章
|
3月前
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
4月前
|
机器学习/深度学习
简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024
【5月更文挑战第30天】清华大学研究团队提出的EfficientTrain++是一种新型训练方法,旨在加速视觉基础网络(如ResNet、ConvNeXt、DeiT)的训练,最高可达3倍速度提升,同时保持模型准确性。该方法基于傅里叶谱裁剪和动态数据增强,实现了课程学习的创新应用。在ImageNet-1K/22K数据集上,EfficientTrain++能有效减少多种模型的训练时间,且在自监督学习任务中表现出色。尽管面临适应性与稳定性的挑战,EfficientTrain++为深度学习模型的高效训练开辟了新途径,对学术和工业界具有重要意义。
50 4
|
4月前
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
【2月更文挑战第3天】英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
131 1
英伟达推出免训练即可生成连贯图片的文生图模型ConsiStory
|
4月前
|
自然语言处理
多模态混合大模型将成为标配
【1月更文挑战第22天】多模态混合大模型将成为标配
46 1
多模态混合大模型将成为标配
|
编解码
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
342 0
推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
|
编解码 人工智能 数据可视化
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
230 0
|
机器学习/深度学习 编解码 算法
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(一)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(一)
252 0
|
机器学习/深度学习 编解码 算法
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素(1)
首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素
149 0
|
机器学习/深度学习 编解码 算法
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
220 0
|
人工智能 自然语言处理 计算机视觉
消费级GPU可用,文本转图像开源新模型Stable Diffusion生成宇宙变迁大片
消费级GPU可用,文本转图像开源新模型Stable Diffusion生成宇宙变迁大片
147 0