Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)

简介: Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)

1、INTRODUCTION介绍


   近年来,随着生成性对抗网络(GAN,Good.等人)的出现,生成性图像建模的状态有了显著的进步。(2014)在努力生成高逼真度、多样化的图像的同时,直接从数据中学习模型。GAN训练是动态的,并且对其设置的几乎每个方面(从优化参数到模型体系结构)都很敏感,但是大量的研究已经产生了能够在各种环境中进行稳定训练的经验和理论见解。尽管取得了这一进展,但条件ImageNet建模(Zhang等人,2018)的当前技术状态获得了52.5的初始评分(Salimans等人,2016),而真实数据的初始评分为233。

    在本工作中,我们着手消除由GAN生成的图像与来自ImageNet数据集的真实世界图像在保真度和多样性方面的差距。我们做出以下三个贡献来实现这一目标:


我们证明了GAN可从伸缩性中显著受益,并且与现有技术相比,训练具有两至四倍数量参数和八倍批量大小的模型。我们介绍了两个简单的、通用的架构更改,它们改进了可伸缩性,并修改了正则化方案以改进调节,从而显著提高了性能。

作为我们修改的副作用,我们的模型变得适应于“截断技巧”,这是一种简单的采样技术,允许明确、细粒度地控制样本多样性和保真度之间的权衡。

我们发现特定的不稳定性大规模GANS,并表征他们经验。从这个分析中,我们可以看到,将新的和现有的技术结合起来可以减少这些不稳定性,但是完全的训练稳定性只能以显著的性能代价来实现。

     我们的修改实质上改进了类条件GANS。当在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)将最先进的初始分数(IS)和Fre_chet初始距离(FID)分别从52.52和18.65提高到166.3和9.6。我们在ImageNet上成功地训练了分辨率为256×256和512×512的BigGAN,在256×256上实现了IS和FID分别为233.0和9.3,在512×512上实现了IS和FID分别为241.4和10.9。最后,我们在一个更大的内部数据集上训练我们的模型,并且演示我们的设计选择从ImageNet很好地传递。


2、BACKGROUND背景


     生成性对抗网络(GAN)涉及生成器(G)和鉴别器(D)网络,其目的分别是将随机噪声映射到样本并区分真实和生成的样本。形式上,GaN目标,在其原来的形式(GooFisher等人,2014)涉及找到纳什均衡到以下两个玩家的最小-最大问题:


image.png


    z∈Rdz 是从分布p(z)中提取的一个潜变量,如n(0,i)或u[-1, 1]。当应用于图像时,G和D通常是卷积神经网络(Radford等人,2016)。没有辅助的稳定技术,这种训练程序是众所周知的脆弱,需要微调的超参数以及架构选择来工作。

因此,最近的许多研究集中于对香草GAN程序进行修改,以赋予稳定性,并利用越来越多的经验和理论见解(Nowozin等人,2016;Snderby等人,2017;Fedus等人,2018)。其中一项工作重点是改变目标函数(Arjovsky等人,2017;Mao等人,2016;Lim & Ye,2017;Bellemare等人,2017;Salimans等人,2018)以鼓励收敛。另一行着重于通过梯度惩罚(Gulrajani等人,2017;Kodali等人,2017;Mescheder等人,2018)或归一化(Miyato等人,2018)来约束D,以抵消无界损失函数的使用,并确保D向G.

    与我们的工作特别相关的是谱归一化(Miyato等人,2018),它通过利用其第一奇异值的运行估计来归一化其参数,从而在D上强制Lipschitz连续性,从而诱导自适应地调整顶部奇异方向的向后动力学。相关的ODENA等。(2018)分析G的雅可比矩阵的条件数,发现性能依赖于G的条件。张等。(2018)发现在G中采用谱归一化提高了稳定性,允许每个迭代的D阶数减少。我们扩展了这些分析,以获得更深入的了解,病理的GaN培训。

其他的工作集中在体系结构的选择上,例如SA-GAN(Zhang等人,2018),它添加了来自(Wang等人,2018)的自注意块,以提高G和D建模全局结构的能力。ProGAN(Karras等人,2018)通过跨一系列增加的分辨率训练单个模型,在单类设置中训练高分辨率GAN。

     在条件甘斯(MiZa&OsDuneRo,2014)中,类信息可以以各种方式输入到模型中。在(Odena等人,2017)中,通过将一个1-hot类向量连接到噪声向量来提供给G,并且修改目标以鼓励条件样本最大化由辅助分类器预测的对应类概率。德弗里斯等人。(2017)和杜穆林等。(2017)通过向G提供BatchNorm(Ioffe&Szegedy,2015)层中的类条件增益和偏置来修改类条件传递给G的方式。在Miyato & Koyama(2018)中,D通过利用其特征与一组学习类嵌入之间的余弦相似性作为区分真实样本和生成样本的附加证据来调节,从而有效地鼓励生成特征匹配学习类原型的样本。



    表1:Fr´echet Inception Distance(FID,低点是更好的)和起始分数(IS,高点是更好的)为我们提出修改消融。批量是批量大小,参数是总number of参数,CH。is the通道倍增器representing the number of Units in each层、共享是使用共享embeddings昨天。是使用分层的潜在空间,邻。是正则化正交,either indicates that the setting and ITR是稳定的iterations to 106,黄金,它崩溃了at the given迭代。other than行1 - 4,结果是计算机在8不同随机初始化。

    客观评价隐生成的模型是困难的(泰斯等人,2015年)。a variety of作品已经提出heuristics测定样品的质量模型不听话的likelihoods(salimans等人,2016年;heusel等人,2017年;bin´kowski等人,2018年;吴等人,2017年)。of these,the inception评分(是的,salimans等。(2016年)和fre´chet距离(FID)开始,heusel等。(have become popular 2017年),尽管他们明显的错误(Barratt和夏尔,2018年)。我们雇佣他们有近似measures of样品质量,and to enable比较对以前的工作。


image.png

3、SCALING UP GANS


更新中

相关文章
|
2月前
|
算法 BI 计算机视觉
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
33 1
|
机器学习/深度学习 编解码 人工智能
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。 综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
DeIT:Training data-efficient image transformers & distillation through attention论文解读
最近,基于注意力的神经网络被证明可以解决图像理解任务,如图像分类。这些高性能的vision transformer使用大量的计算资源来预训练了数亿张图像,从而限制了它们的应用。
353 0
|
11月前
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022 - DESED: Dialogue-based Explanation for Sentence-level Event Detection
最近许多句子级事件检测的工作都集中在丰富句子语义上,例如通过多任务或基于提示的学习。尽管效果非常好,但这些方法通常依赖于标签广泛的人工标注
68 0
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
281 0
|
数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
103 0
|
机器学习/深度学习 传感器 自然语言处理
论文笔记:SpectralFormer Rethinking Hyperspectral Image Classification With Transformers_外文翻译
 高光谱(HS)图像具有近似连续的光谱信息,能够通过捕获细微的光谱差异来精确识别物质。卷积神经网络(CNNs)由于具有良好的局部上下文建模能力,在HS图像分类中是一种强有力的特征提取器。然而,由于其固有的网络骨干网的限制,CNN不能很好地挖掘和表示谱特征的序列属性。
128 0
|
自然语言处理 数据挖掘 知识图谱
Re31:读论文 metapath2vec: Scalable Representation Learning for Heterogeneous Networks
Re31:读论文 metapath2vec: Scalable Representation Learning for Heterogeneous Networks
Re31:读论文 metapath2vec: Scalable Representation Learning for Heterogeneous Networks
|
存储 机器学习/深度学习 自然语言处理
Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络
这篇文章提出了动态记忆生成对抗网络(DM-GAN)来生成高质量的图像。该方法可以在初始图像生成不好时,引入动态存储模块来细化模糊图像内容,从而能够从文本描述中更加准确地生成图像。 文章被2019年CVPR(IEEE Conference on Computer Vision and Pattern Recognition)会议收录。 论文地址: https://arxiv.org/abs/1904.01310?context=cs 代码地址: https://github.com/MinfengZhu/DM-GAN
Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络
|
机器学习/深度学习 人工智能 算法
Bag of Tricks for Efficient Text Classification 论文阅读及实战
Bag of Tricks for Efficient Text Classification 论文阅读及实战
286 0
Bag of Tricks for Efficient Text Classification 论文阅读及实战

热门文章

最新文章