《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记(一)

简介: 《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记(一)

《Progressive Growing of GANs for Improved Quality, Stability, and Variation》-论文阅读笔记


论文结构

1.Introduction

2.Progressive growing of GANs

3.Increasing variation using

minibatch standard deviation

4.Normalization in generator and

discriminator

4.1 Equalized learning rate

4.2 Pixelwise feature vector

normalization in generator

5.Multi-scale statistical similarity

for assessing GAN results

6.Experiments

6.1 Importance of individual contributions in

terms of statistical similarity

6.2 Convergence and training speed

6.3 High-resolution image generation using

CelebA-HQ dataset

6.4 LSUN results

6.5 CIFAR10 inception scores

7.Discussion


摘要

原文

We describe a new training methodology for generative adversarial networks. The key idea is to grow both the generator and discriminator progressively: starting from a low resolution, we add new layers that model increasingly fine details as training progresses. This both speeds the training up and greatly stabilizes it, allowing us to produce images of unprecedented quality, e.g., CelebA images at 1024^2. We also propose a simple way to increase the variation in generated images, and achieve a record inception score of 8.80 in unsupervised CIFAR10. Additionally, we describe several implementation details that are important for discouraging unhealthy competition between the generator and discriminator. Finally, we suggest a new metric for evaluating GAN results, both in terms of image quality and variation. As an additional contribution, we construct a higher-quality version of the CelebA dataset.


总结

1.使用渐进的方式来训练生成器和判别器:先从生成低分辨率图像开始,然后不断增加模型层数来提升生成图像的细节

2.这个方法能加速模型训练并大幅提升训练稳定性,生成前所未有的的高质量图像(1024*1024)

3.提出了一种简单的方法来增加生成图像的多样性

4.介绍了几种限制生成器和判别器之间不健康竞争的技巧

5.提出了一种评价GAN生成效果的新方法,包括对生成质量和多样性的衡量

6.构建了一个CELEBA数据集的高清版本


研究背景

Research background


生成式模型的类别


•显性密度模型


易解显性模型:定义一个方便计算的密度分布,主要的模型是Fully visible belief nets,简称FVBN,也被称作Auto-Regressive Network

近似显性模型:可以定义任意的密度分布,使用近似方法来求解

隐性密度模型


GAN

• 神经自回归网络(PixelRNN/CNN)

通过链式法则把联合概率分布分解为条件概率分布的乘积使用神经网络来参数化每个P

PixelRNN逐像素生成,效率很低,PixelCNN效果不如PixelRNN


• VAE-GAN

编码器:使P(z|x)逼近分布P(z),比如标准正态分布,同时最小化生成器(解码器)和输入x的差距

解码器:最小化输出和输入x的差距,同时要骗过判别器

判别器:给真实样本高分,给重建样本和生成样本低分


图像生成的评价指标

• 可以评价生成样本的质量

• 可以评价生成样本的多样性,能发现过拟合、模式缺失、模式崩溃、直接记忆样本的问题

• 有界性,即输出的数值具有明确的上下界

• 给出的结果应当与人类感知一致

• 计算评价指标不应需要过多的样本

• 计算复杂度尽量低


推荐阅读:GAN评价指标最全汇总 - 知乎 (zhihu.com)

目录
相关文章
|
IDE 数据可视化 Linux
【matplotlib】plt.show() !真没这么简单!
【matplotlib】plt.show() !真没这么简单!
2603 1
|
Unix C++
在VS2019中CMake生成出现报错
在VS2019中CMake生成出现报错
2221 0
在VS2019中CMake生成出现报错
|
11月前
|
人工智能 智能设计 算法
浙江大学联合阿里云举办的全国高校人工智能师资素养提升交流活动圆满结束丨云工开物
为推动人工智能与教育深度融合,浙江大学联合阿里云举办“2025年全国高校人工智能师资素养提升交流活动”。活动吸引121所高校及单位的579名教师参与,通过项目实例讲解、平台实践训练等方式,助力教师掌握AI技术并融入教学。活动中,浙江大学与阿里云专家分享了前沿技术和应用案例,参访浙大艺博馆与阿里云展厅,并完成AIGC辅助设计实训。未来,双方将持续推进数字化技能培训,支持高校AI人才培养。
|
计算机视觉 Python
python基于opencv工具掌纹主线提取
我们将在这篇文章中使用Python和OpenCV库来找出我们手掌中的主线。
|
机器学习/深度学习 编解码 IDE
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对ResNetLayer进行二次创新
RT-DETR改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对ResNetLayer进行二次创新
520 9
RT-DETR改进策略【卷积层】| ICCV-2023 SAFM 空间自适应特征调制模块 对ResNetLayer进行二次创新
|
计算机视觉
RT-DETR改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
RT-DETR改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
502 4
RT-DETR改进策略【卷积层】| 2024最新轻量级自适应提取模块 LAE 即插即用 保留局部信息和全局信息
|
计算机视觉
YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进C3k2
YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进C3k2
794 0
YOLOv11改进策略【卷积层】| ICCV-2023 引入Dynamic Snake Convolution动态蛇形卷积,改进C3k2
|
机器学习/深度学习 计算机视觉
【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
本文介绍了ICCV 2019的一篇关于小样本图像语义分割的论文《PANet: Few-Shot Image Semantic Segmentation With Prototype Alignment》。PANet通过度量学习方法,从支持集中的少量标注样本中学习类的原型表示,并通过非参数度量学习对查询图像进行分割。该方法在PASCAL-5i数据集上取得了显著的性能提升,1-shot和5-shot设置下的mIoU分别达到48.1%和55.7%。PANet还引入了原型对齐正则化,以提高模型的泛化能力。
885 0
【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
|
机器学习/深度学习 自然语言处理 负载均衡
揭秘混合专家(MoE)模型的神秘面纱:算法、系统和应用三大视角全面解析,带你领略深度学习领域的前沿技术!
【8月更文挑战第19天】在深度学习领域,混合专家(Mixture of Experts, MoE)模型通过整合多个小型专家网络的输出以实现高性能。从算法视角,MoE利用门控网络分配输入至专家网络,并通过组合机制集成输出。系统视角下,MoE需考虑并行化、通信开销及负载均衡等优化策略。在应用层面,MoE已成功应用于Google的BERT模型、Facebook的推荐系统及Microsoft的语音识别系统等多个场景。这是一种强有力的工具,能够解决复杂问题并提升效率。
1421 2