Text to image论文精读 StackGAN++: Realistic Image Synthesis with Stacked GAN(具有堆叠式生成对抗网络的逼真的图像合成)

简介: 这篇文章主要工作是:将原先的Stack GAN的两阶段的堆叠结构改为了树状结构。包含有多个生成器和判别器,它们的分布像一棵树的结构一样,并且每个生成器产生的样本分辨率不一样。另外对网络结构也进行了改进。文章被2017年ICCV(International Conference on Computer Vision)会议录取。论文地址: https://arxiv.org/pdf/1710.10916v3.pdf代码地址: https://github.com/hanzhanggit/StackGAN-v2

@[TOC](StackGAN++: Realistic Image Synthesis with Stacked GAN(具有堆叠式生成对抗网络的逼真的图像合成))

这篇文章主要工作是:将原先的Stack GAN的两阶段的堆叠结构改为了树状结构。包含有多个生成器和判别器,它们的分布像一棵树的结构一样,并且每个生成器产生的样本分辨率不一样。另外对网络结构也进行了改进。

文章被2017年ICCV(International Conference on Computer Vision)会议录取。

论文地址: https://arxiv.org/pdf/1710.10916v3.pdf

代码地址: https://github.com/hanzhanggit/StackGAN-v2

本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。这篇文章介绍了StackGAN-v1,其在上篇博客Text to image论文精读:StackGAN中已经进行讲解,本篇博客只对StackGAN-v2的内容进行总结。

一、摘要

尽管生成性对抗网络(GAN)在各种任务中取得了显著的成功,但它们在生成高质量图像方面仍然面临挑战。在本文中,我们提出了堆叠生成对抗网络(StackGANs),旨在生成高分辨率照片真实感图像。首先,我们提出了一种用于文本图像合成的两阶段生成对抗性网络体系结构StackGAN-v1。Stage-I GAN根据给定的文本描述绘制场景的原始形状和颜色,生成低分辨率图像。阶段II GAN将阶段I结果和文本描述作为输入,并生成具有照片真实细节的高分辨率图像。其次,针对条件生成任务和无条件生成任务,提出了一种先进的多级生成对抗网络体系结构StackGAN-v2。我们的StackGAN-v2由多个发生器和多个鉴别器组成,以树状结构排列;从树的不同分支生成对应于同一场景的多个比例的图像。通过联合逼近多个分布,StackGAN-v2显示出比StackGAN-v1更稳定的训练行为。大量实验表明,所提出的堆叠生成对抗网络在生成照片真实感图像方面明显优于其他最先进的方法。

二、关键词

Text to Image, Generative Adversarial Network, Image Synthesis, Computer Vision

三、为什么要提出StackGAN-v2?

通过在多个尺度上建模数据分布,如果这些模型分布中的任何一个与该尺度上的真实数据分布共享支持,则堆叠结构可以提供良好的梯度信号,以加速或稳定整个网络在多个尺度上的训练。例如,在第一层近似低分辨率图像分布会产生具有基本颜色和结构的图像。然后,后续分支的生成器可以专注于完成细节,以生成更高分辨率的图像。

简单的来说就是:如果任何一个尺度的生成图片与该尺度的真实图片的分布尽可能的近似,那么就能够提供很好的梯度信号去稳定或促进真个网络的训练。

实验证明:StackGAN-v2显示出更稳定的训练行为,并在大多数数据集上获得更好的FID和初始分数,且相比v1来说,其不会出现模式崩溃的问题。

四、主要内容

4.1 StackGAN-v1与StackGAN-v2

StackGAN-v1有两个独立的网络,第一阶段GAN和第二阶段GAN,用于对低分辨率到高分辨率的图像分布进行建模。

为了使框架更具通用性,本文提出了一种新的端到端网络StackGAN-v2,用于模拟一系列多尺度图像分布。而StackGAN-v2由树状结构的多个生成器(G)和多个鉴别器(D)组成。从低分辨率到高分辨率的图像是从树的不同分支生成的。在每个分支上,生成器捕获该尺度的图像分布,鉴别器分辨来自该尺度样本的真假。对生成器进行联合训练以逼近多个分布,并且以交替方式对生成器和鉴别器进行训练。

4.2 多尺度图像分布

每个生成器都有其隐藏特征,第一个生成器的隐藏特征为h0=F0 (z),其中z为噪声,通常采用标准正态分布,第i个生成器的隐藏特征为hi=Fi (h(i-1),z),即噪声与隐层特征h(i-1)共同作为计算hi的输入,如此生成器产生小尺度到大尺度的样本。

在这里插入图片描述

4.3 联合条件和无条件分布

无条件图像生成:鉴别器从生成的图像中鉴别出真实图像。

   条件图像生成:将图像及其相应的条件变量(如text embedding)输入到鉴别器中以确定图像和条件变量是否匹配,这引导生成器近似条件图像分布。即:在h_0 中h_0=F_0 (c,z),z表示随机噪声,但是在后面层次h_i 中h_i=F_i (h_(i-1),c),c表示条件向量。训练条件StackGAN-v2鉴别器D的目标函数现在由两项组成:无条件损失和条件损失,如下图:

在这里插入图片描述

在这里插入图片描述

4.4 颜色一致性正则化

当我们在不同的生成器上提高图像分辨率时,不同尺度下生成的图像应该具有相似的基本结构和颜色。因此引入颜色一致性正则化项,以保持不同生成器上相同输入生成的样本在颜色上更加一致,从而提高生成图像的质量。颜色一致性正则化项旨在最小化不同尺度之间的纹理差异。

令Xk=(R,G,B)^T用来表示生成的图片中的一个像素,然后计算

在这里插入图片描述

计算均值和方差,N表示像素总数 。

颜色一致性正则化项旨在最小化下面的公式,进而能够最小化每个尺度间的均值和方差的差异。

在这里插入图片描述

4.5 实施细节

在这里插入图片描述

模型被设计最终生成256256图像,输入向量(噪声z和text embedding)首先被设置为4464N_g,其中N_g是通道数,通过生成器分别被转化为64644N_g、1281282N_g、2562561N_g,条件变量或无条件变量也直接输入网络的中间层,以确保编码信息不被忽略。而所有鉴别器都有下采样块和33的卷积核,鉴别器将图像转为448N_g,最后通过sigmoid函数输出判断概率。

五、实验

5.1 度量标准

Inception Score(IS):IS=exp⁡(EX Dkl (p(y|x)||p(y))),边际分布p(y)和条件分布p(y|x)的KL散度,IS越大越好。

Frechet inception distance(FID):FID测量合成的数据分布和真实数据分布的距离,

在这里插入图片描述

其中m和C表示从生成数据中得出的均值和方差,mr和Cr表示从真实数据中得出的均值和方差。FID越小越好。

5.2 实验结果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

5.3 StackGAN-v1和StackGAN-v2的比较

在这里插入图片描述

端到端训练方案以及颜色一致性正则化使StackGAN-v2能够为每个分支生成更多反馈和正则化,从而在多步骤生成过程中更好地保持一致性。通过联合优化多个分布,StackGAN-v2显示出更稳定的训练行为,并在大多数数据集上获得更好的FID和初始分数,但训练时收敛速度慢于v1且需要更多GPU资源。

t-SNE是检验综合分布和评估其多样性的良好工具,利用 t-SNE去对由StackGAN-v1和StackGAN-v2在CUB测试集上生成的图片做模型的坍塌实验。结果显示StackGAN-v1会有两个部分的模式坍塌,而StackGAN-v2没有

在这里插入图片描述

5.4 一些失败案例

在这里插入图片描述

将失败分为轻度、中度和重度。轻度指生成的图像具有平滑、连贯的外观,但缺少生动的对象;中度指生成的图像具有明显的伪影,通常是模式崩溃的迹象;重度指表示生成的图像处于模式崩溃。通过实验发现StackGAN-v2能有效避免模式崩溃的重度失败。

5.5 消融实验

在这里插入图片描述

StackGAN-v2-no-JCU表示去掉共同近似条件分布和无条件分布模块;StackGAN-v2-G2表示只用G2而并不用G0和G1先生成模糊图像;StackGAN-v2-3G2表示用3个G2但噪声不同来生成图像;StackGAN-v2-allG2表示用3个G2组成堆叠结构来生成图像。实验证明StackGAN-v2结构的有效性。

在这里插入图片描述

颜色一致性正则化的消融实验(第一行是没有,第二行有)。结果表明,颜色一致性正则化提供的附加约束能够促进多分布近似,并帮助不同分支的生成器生成更多的相干样本。

六、心得与体会

本篇文章的创新点有三:

(1)    将原先的Stack GAN的两阶段的堆叠结构改为了树状结构。包含有多个生成器和判别器,它们的分布像一棵树的结构一样,并且每个生成器产生的样本分辨率不一样,这样的多尺度的图片分布的好处在于:如果任何一个尺度的生成图片与该尺度的真实图片的分布尽可能的近似,那么就能够提供很好的梯度信号去稳定或促进整个网络的训练。

(2)    在判别器的模型中加入了有条件和无条件的损失函数

(3)    加入颜色一致性正则化,这能够保证来自同一输入的向量在不投的生成器端在色彩上尽量保持一致,从而能够保证最终生成的256 x 256的图片的质量。

相关阅读

Text to image(T2I)论文整理 阅读路线和阅读指南

下一篇:AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)

相关文章
|
2月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
181 10
|
2月前
|
机器学习/深度学习 边缘计算 算法
SEENN: 迈向时间脉冲早退神经网络——论文阅读
SEENN提出一种时间脉冲早退神经网络,通过自适应调整每个样本的推理时间步数,有效平衡脉冲神经网络的准确率与计算效率。该方法基于置信度判断或强化学习策略,在保证高精度的同时显著降低能耗与延迟,适用于边缘计算与实时处理场景。
159 13
|
2月前
|
机器学习/深度学习 缓存 算法
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
2025年华为杯A题|通用神经网络处理器下的核内调度问题研究生数学建模|思路、代码、论文|持续更新中....
379 1
|
6月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
280 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
10月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
1034 146
|
8月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
304 63
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
345 3
|
6月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1064 2
|
8月前
|
机器学习/深度学习 数据采集 编解码
基于DeepSeek的生成对抗网络(GAN)在图像生成中的应用
生成对抗网络(GAN)通过生成器和判别器的对抗训练,生成高质量的合成数据,在图像生成等领域展现巨大潜力。DeepSeek作为高效深度学习框架,提供便捷API支持GAN快速实现和优化。本文详细介绍基于DeepSeek的GAN技术,涵盖基本原理、实现步骤及代码示例,展示其在图像生成中的应用,并探讨优化与改进方法,如WGAN、CGAN等,解决模式崩溃、训练不稳定等问题。最后,总结GAN在艺术创作、数据增强、图像修复等场景的应用前景。
936 16

热门文章

最新文章