【深度学习】Generative Adversarial Networks ,GAN生成对抗网络分类

简介: 文章概述了生成对抗网络(GANs)的不同变体,并对几种经典GAN模型进行了简介,包括它们的结构特点和应用场景。此外,文章还提供了一个GitHub项目链接,该项目汇总了使用Keras实现的各种GAN模型的代码。

1 思维导图

1.png

2 大纲

序号对应论文中的参考文献《A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications》

按损失函数分
    Original GAN
    f-GAN
    Energy-based GAN
    Least-square GAN
    Loss-sensitive GAN
    W-GAN、improved W-GAN
    Boundary-equilibrium GAN
    Boundary-seekingGAN

按网络结构分
    Conditional GAN
    InfoGAN
    Stacked GAN
    CycleGAN、DualGAN、 DiscoGAN
    Triple GAN
    Triangle GAN
    TAC-GAN
    CVAE-GAN

按应用领域分
    图像处理和计算机视觉
        超分辨
            SRGAN【63】
            ESRGAN【64CyCle-In-Cycle GANs【65】
            SRDGAN【66】
            TGAN【67】
        图像合成和处理
            DR-GAN【68】
            TP-GAN【69】
            PG【70】
            PSGAN【71】
            APDrawingGAN【72】
            IGAN【73】
            Introspective adversarial networks【74】
            GuaGN 【75】
        纹理合成
            MGAN【76】
            SGAN【77】
            PSGAN【78】
        目标检测
            Segan【79】
            perceptual GAN【80】
            MIGAN【81】
        视频
            VGAN【82】
            DRNET【83】
            Pose-GAN【84】
            video2video【85】
            MoCoGan【86】
    序列数据
        自然语言处理
            RANKGAN【87】
            IRGAN【88】
            TAC-GAN【92】
        音乐
            RNN-GAN【91】
            ORGAN【92】
            SeqGAN【93-94
AI 代码解读

3 经典GAN简介

GitHUb代码汇总https://github.com/823316627bandeng/Keras-GAN

3.1 SGAN

是在半监督学习的背景下提出的,与监督学习(其中每个样本都需要一个标签)和非监督学习(其中不提供标签)不同,半监督学习具有一小部分示例的标签。与FCGAN相比,SGAN的鉴别器是multi-headed的,即具有softmax和Sigmoid,以对真实数据进行分类并分别区分真实和生成样本。作者在MNIST数据集上训练SGAN,结果表明与原始GAN相比,SGAN中的鉴别器和生成器均得到了改进。

2.png

3.2 Conditional GAN

CGAN将随机噪声 和类别标签 作为生成器的输入,判别器则将生成的样本或真实样本与类别标签作为输入。以此学习标签和图片之间的关联性。具体看代码,用了两次鉴别器。一次是鉴别真样本,一次鉴别生成的样本

3.png

3.3 Bidirectional GAN (BiGAN)

  • 整个结构包括三部分:Encode网络,G网络,D网络。 Encode网络,提取原始图片的隐变量。G网络,将噪声生成图片。D网络,判断这个配对(原始图片和隐变量 生成图片和噪声)是来自encoder还是decoder

  • 中文翻译是“双向Gan”,对于配对“原始图片和隐变量 ”原始图片是已知的,隐变量 是学习噪声,对于配对“生成图片和噪声”,噪声是已知的,生成图片是学习原始图片,这就是一个双向学习过程。

4.png

3.4 InfoGAN

  • 提出把输入的噪声向量分成两部分:(1)z,可以看成是输入的噪声向量。(2)c,对应的语义向量。其中Info代表互信息,它表示生成数据x与隐藏编码c之间关联程度大小。

  • InfoGAN提出一种无监督的方式,让生成网络输入噪声变量z、隐藏编码c,即生成数据可以表示成:G(z,c)。然而,在标准GAN中,如果直接这样作为网络的输入进行训练,那么生成器将忽略隐藏编码的作用,或者可以看成z与c相互独立、不相关。为了解决这个问题,文章提出正则化约束项:隐藏编码c与生成样本G(z,c)的互信息量应该较大,即I(c;G(z,c))应该较大。

5.png

3.5 Auxiliary Classifier GAN (AC-GAN)

ACGAN的原理GAN(CGAN)相似。对于CGAN和ACGAN,生成器输入均为潜在矢量及其标签,输出是属于输入类标签的伪造图像。对于CGAN,判别器的输入是图像(包含假的或真实的图像)及其标签, 输出是图像属于真实图像的概率。对于ACGAN,判别器的输入是一幅图像,而输出是该图像属于真实图像的概率以及其类别概率

6.png

3.6 Boundary Equilibrium GAN (BEGAN)

  • 应用auto-encoder实现Discriminator
  • Discriminator的Loss_D由输入原图(input_img)与Decoder恢复的输出图(recover_img)之间的逐点error构成
  • Loss_D可看成是随机的分布,由real_img所形成的Loss_D_Real分布与由Generator生成的假图(fake_img)所形成的Loss_D_Fake分布,出现了两个分布,用Wasserstein Distance(简称WD)来衡量这两个分布的距离。Discriminator的目标是尽量拉开这两个分布的距离,而Generator的目标是缩小这两个分布的距离——GAN的基本思想。
  • 引入了一个均衡的概念来调节Discriminator训练时的两个目标的比重:目标1,是提高auto-encoder的重构能力,即auto-encoder恢复输入input_img的能力;目标2,提高D的分辨真伪的能力。该均衡控制量是可以变动的,就像是电路中的反馈环,构成了反馈比例控制(Proportional Control)迭代机制。

7.png

3.7 Self-attention GAN (SAGAN)

《Self-Attention Generative Adversarial Networks(SAGAN)》网络主要引入了注意力机制,不仅解决了卷积结构带来的感受野大小的限制,也使得网络在生成图片的过程中能够自己学习应该关注的不同区域。

GAN之前存在的问题: 对于含有较少结构约束的类别,比如海洋、天空等,得到结果较好;而对于含有较多几何或结构约束的类别则容易失败,比如合成图像中狗(四足动物)的毛看起来很真实但手脚很难辨认。这是因为复杂的几何轮廓需要long-range dependencies(长距离依赖),卷积的特点就是局部性,受到感受野大小的限制很难提取到图片中的这些长距离依赖。虽然可以通过加深网络或者扩大卷积核的尺寸一定程度解决该问题,但是这会使卷积网络丧失了其参数和计算的效率优势。

论文的主要贡献:
把self-attention机制引入到了GAN的框架中,对卷积结构进行了补充,有助于对图像区域中长距离,多层次的依赖关系进行建模,并对该机制做了可视化实验;
在判别器和生成器中均使用spectral normalization,提升生成器的性能;
训练中使用Two Timescale Update Rule (TTUR),对判别器使用较高学习率,从而可以保证生成器和判别器可以更新比例为1:1,加快收敛速度,减少训练时间。

8.png

3.8 Deep Convolutional GAN (DCGAN)

该网络主要用的是卷积层,而之前的简单的一些网络用的都是全连接层。

9.png

3.9 MSG-GAN

在训练 GAN 的过程中常遇到的一个问题是训练不够稳定, 提出了一种方法, 通过研究如何使用多个尺度的梯度来生成高分辨率图像 (由于数据维数而更具挑战性), 而无需依靠先前的贪婪方法 (例如渐进式生长技术), 来解决图像生成任务的训练不稳定性.

左半部分是生成器, 右半部分是鉴别器. 在生成器中, 粉色的方块是特征图, 将特征图通过 1 ×1 的卷积核来生成下面的图像, 将这些图像传递到鉴别器中对应尺度的位置

10.png

目录
打赏
0
0
0
0
156
分享
相关文章
网管不再抓头发:深度学习教你提前发现网络事故
网管不再抓头发:深度学习教你提前发现网络事故
58 2
中药材图像识别数据集(100类,9200张)|适用于YOLO系列深度学习分类检测任务
本数据集包含9200张中药材图像,覆盖100类常见中药材,适用于YOLO系列及主流深度学习模型的图像分类与目标检测任务。数据已划分为训练集(8000张)与验证集(1200张),采用标准文件夹结构和简体中文命名,适配PyTorch、TensorFlow等框架,可用于中药识别系统开发、医学辅助诊断、移动端图像识别App研发及AI科研训练,具备较强的实用性与拓展性。
130 1
VMware Aria Operations for Networks 6.14 - 网络和应用监控工具
VMware Aria Operations for Networks 6.14 - 网络和应用监控工具
29 0
VMware Aria Operations for Networks 6.14 - 网络和应用监控工具
Wi-Fi老是卡?不如试试让“深度学习”来当网络管家!
Wi-Fi老是卡?不如试试让“深度学习”来当网络管家!
155 68
VMware Cloud Foundation Operations for Networks 9.0 发布 - 云网络监控与分析
VMware Cloud Foundation Operations for Networks 9.0 发布 - 云网络监控与分析
23 0
特殊网络类型分类
本文介绍了网络技术中的关键概念,包括虚拟局域网(VLAN)、存储区域网络(SAN)、网络桥接、接入网以及按拓扑结构和交换方式分类的网络类型。VLAN通过逻辑分隔提高性能与安全性;SAN提供高性能的数据存储解决方案;网络桥接实现不同网络间的互联互通;接入网解决“最后一千米”的连接问题。此外,文章详细对比了总线型、星型、树型、环型和网状型等网络拓扑结构的特点,并分析了电路交换、报文交换和分组交换的优缺点,为网络设计与应用提供了全面参考。
96 8
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
84 8
基于MobileNet深度学习网络的活体人脸识别检测算法matlab仿真
本内容主要介绍一种基于MobileNet深度学习网络的活体人脸识别检测技术及MQAM调制类型识别方法。完整程序运行效果无水印,需使用Matlab2022a版本。核心代码包含详细中文注释与操作视频。理论概述中提到,传统人脸识别易受非活体攻击影响,而MobileNet通过轻量化的深度可分离卷积结构,在保证准确性的同时提升检测效率。活体人脸与非活体在纹理和光照上存在显著差异,MobileNet可有效提取人脸高级特征,为无线通信领域提供先进的调制类型识别方案。
基于DeepSeek的生成对抗网络(GAN)在图像生成中的应用
生成对抗网络(GAN)通过生成器和判别器的对抗训练,生成高质量的合成数据,在图像生成等领域展现巨大潜力。DeepSeek作为高效深度学习框架,提供便捷API支持GAN快速实现和优化。本文详细介绍基于DeepSeek的GAN技术,涵盖基本原理、实现步骤及代码示例,展示其在图像生成中的应用,并探讨优化与改进方法,如WGAN、CGAN等,解决模式崩溃、训练不稳定等问题。最后,总结GAN在艺术创作、数据增强、图像修复等场景的应用前景。
563 16
基于MobileNet深度学习网络的MQAM调制类型识别matlab仿真
本项目基于Matlab2022a实现MQAM调制类型识别,使用MobileNet深度学习网络。完整程序运行效果无水印,核心代码含详细中文注释和操作视频。MQAM调制在无线通信中至关重要,MobileNet以其轻量化、高效性适合资源受限环境。通过数据预处理、网络训练与优化,确保高识别准确率并降低计算复杂度,为频谱监测、信号解调等提供支持。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问