StackGAN 论文阅读笔记(一)

简介: StackGAN 论文阅读笔记(一)

论文结构


1.Introduction

2.Related Work

3.Stacked Generative Adversarial

Networks

3.1 Preliminaries

3.2 Conditioning Augmentation

3.3 Stage-I GAN

3.4 Stage-II GAN

3.5 Implementation details

4.Experiments

4.1 Datasets and evaluation metrics

4.2 Quantitative and qualitative results

4.3 Component analysis

5.Conclusions


摘要


原文

Synthesizing high-quality images from text descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing text-to-image approaches can roughly reflect the meaning of the given descriptions, but they fail to contain necessary details and vivid object parts. In this paper, we propose Stacked Generative Adversarial Networks (StackGAN) to generate 256x256 photo-realistic images conditioned on text descriptions. We decompose the hard problem into more manageable sub-problems through a sketch-refinement process. The Stage-I GAN sketches the primitive shape and colors of the object based on the given text description, yielding Stage-I low-resolution images. The Stage-II GAN takes Stage-I results and text descriptions as inputs, and generates high-resolution images with photo-realistic details. It is able to rectify defects in Stage-I results and add compelling details with the refinement process. To improve the diversity of the synthesized images and stabilize the training of the conditional-GAN, we introduce a novel Conditioning Augmentation technique that encourages smoothness in the latent conditioning manifold. Extensive experiments and comparisons with state-of-the-arts on benchmark datasets demonstrate that the proposed method achieves significant improvements on generating photo-realistic images conditioned on text descriptions.


核心

现有文本到图像方法生成的样本,可以大致表达出给定的文本含义,但是图像细节和质量不佳

StackGAN能基于文本描述,生成256*256分辨率的照片级图像

把问题进行了分解,采用 草图绘制-精细绘制 两阶段过程

阶段1的GAN根据给定的文本描述,来绘制对象的原始形状和颜色;阶段2的GAN使用文本描述和阶段1的输出来作为输入,通过纠正草图中的缺陷和细节生成,来最终得到更高分辨率的图像

还提出了一种条件增强方法,能够增强潜在条件流形的平滑性

大量实验表明,以上方法在以文本描述为条件的照片级图像生成上取得了显著进步


研究背景


Research background


Energy-Based(EB) GAN

将判别器视作一个energy function,函数值(非负)越小代表data越可能是真实数据

使用自编码作为判别器(energy function)

判别器可以单独使用真实数据进行提前的预训练

可以基于ImageNet数据集训练,生成256*256分辨率的图片



文本生成图像

• VAE

• DRAW(Deep Recurrent Attention Writer)


•使用循环神经网络+注意力机制

•依次生成一个个对象叠加在一起得到最终结果

• GAN


在生成器中,text embedding跟随机噪声融合后一起输入到生成网络中

鉴别器会对错误情况进行分类,一种是生成的fake图像匹配了正确的文本,另一种是真实图像但匹配了错误文本

目录
相关文章
|
3月前
|
算法 数据挖掘 数据建模
【2023年4月美赛加赛】Y题:Understanding Used Sailboat Prices 三篇完整论文及代码
本文概述了2023年4月美赛加赛Y题“Understanding Used Sailboat Prices”的三篇完整论文及代码,涉及二手帆船定价的数学模型构建、区域效应分析、模型在香港市场的适用性验证,以及对帆船市场因素的深入分析和预测。
44 0
|
机器学习/深度学习 自然语言处理 算法
WikiRank论文解读
WikiRank是2018年提出来的,作者认为背景知识可以提供文档的有价值信息,但是它们很少呗应用到关键词抽取任务中来。
94 0
|
6月前
|
机器学习/深度学习 算法 固态存储
【论文泛读】 Deep Learning 论文合集
【论文泛读】 Deep Learning 论文合集
|
6月前
|
人工智能 Unix 开发工具
vimtutor阅读笔记
csdn博客搬运 vim 常用操作
54 0
|
算法 数据挖掘
TopicRank论文解读
TopicRank是2013年的一种无监督关键词抽取算法,其还是一种基于图的关键词抽取算法,主要创新点在于会依赖文档的主题进行辅助辅助排序。候选关键词将以主题进行划分,被用作完整的词图节点。
166 0
|
机器学习/深度学习 自然语言处理 机器人
Transformer - 李宏毅笔记
Transformer - 李宏毅笔记
264 0
|
机器学习/深度学习 编解码 算法
DGP 论文阅读笔记
DGP 论文阅读笔记
242 0
DGP 论文阅读笔记
|
机器学习/深度学习 编解码 自然语言处理
StackGAN 论文阅读笔记(二)
StackGAN 论文阅读笔记(二)
82 0
StackGAN 论文阅读笔记(二)
|
机器学习/深度学习 编解码 监控
BigGAN-论文阅读笔记
BigGAN-论文阅读笔记
227 0
BigGAN-论文阅读笔记
|
机器学习/深度学习 编解码 计算机视觉
StackGAN 论文阅读笔记(三)
StackGAN 论文阅读笔记(三)
102 0
StackGAN 论文阅读笔记(三)