Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

简介: 这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。

@[TOC](A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis:用于文本生成图像的对抗性神经网络综述与分类)

这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。

综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。

本文是阅读这篇文章的阅读报告。

文章下载地址:https://arxiv.org/pdf/1910.09399.pdf

一、索引

Agnese J ,  Herrera J ,  Tao H , et al. A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis[J].  2019.

二、原文摘要

文本到图像合成是指将人类文本描述(以关键字或句子的形式)翻译成与文本具有相似语义的图像的计算方法。在早期的研究中,图像合成主要依赖于字到图像的相关性分析,并结合有监督的方法来找到与文本匹配的视觉内容的最佳对齐方式。深度学习(DL)的最新进展带来了一套新的无监督深度学习方法,特别是深度生成模型,它能够使用经过适当训练的神经网络模型生成逼真的视觉图像。从基于计算机视觉的方法到人工智能(AI)驱动的方法的方向转变激发了业界的浓厚兴趣,如虚拟现实、娱乐(电子竞技)游戏和计算机辅助设计等,从基于文本的自然语言描述中自动生成引人注目的图像。

在本文中,我们回顾了文本到图像合成研究领域的最新进展。我们的目标是通过对最先进的模型在架构和设计方面进行比较评估,从而提供价值。我们的综述首先介绍了图像合成及其面临的挑战,然后回顾了生成对抗网络(GANs)和深度卷积编码器神经网络(DCNN)等关键概念。然后,我们提出了一种分类法,将基于GAN的文本图像合成归纳为四大类:语义增强GAN、分辨率增强GAN、多样性增强GAN和运动增强GAN。我们阐述了每个小组的主要目标,并进一步回顾了每个小组中典型的GAN架构。分类法和综述概述了不同方法的技术和演变,并最终提供了一个清晰的路线图,以总结利用GANs和DCNN在类别(如人脸、鸟类、花卉、房间内部、从边缘地图重建对象)中产生迷人结果的同期解决方案列表(游戏)等。调查结束时将比较提出的解决方案、尚未解决的挑战以及文本到图像合成领域的未来发展。

三、主要内容

3.1传统T2I

传统的文本生成图像搜索与文本最相关的图像,更改部分特征;缺乏生成新图像的能力,而后发展到用VAE(variational-autoencoders)并根据属性生成图像,图像质量不高,且多样性低受到有限属性的约束。

传统T2I:

在这里插入图片描述在这里插入图片描述

Attribute2Image模型:

在这里插入图片描述在这里插入图片描述

3.2预备工作与基本框架

单一的GAN框架:

在这里插入图片描述在这里插入图片描述

多层次的GAN框架:

在这里插入图片描述在这里插入图片描述

A:一个生成器,多个辨别器

B:多级GAN,一层的结果输出送入下层作为输入

C:对称性结构GAN

D:分层嵌套GAN

3.3分类方法

本综述将基于GAN的文本生成图像的发展分为四大类:语义增强、分辨率增强、多样性增强、动作增强。(Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs)

在这里插入图片描述在这里插入图片描述

语义增强GANs:语义增强GANs代表了用于文本到图像合成的GAN框架的先驱作品。GAN框架的主要重点是确保生成的图像在语义上与输入文本相关。这一目标主要是通过使用神经网络将文本编码为密集特征来实现的,这些特征被进一步馈送到第二个网络以生成与文本匹配的图像。

分辨率增强GANs:分辨率增强机制主要关注生成与文本语义匹配的高质量图像。这主要是通过多级GAN框架实现的,其中来自早期GAN的输出被馈送到第二级(或后期)GAN以生成更好的质量图像。

多样性增强GANs:多样性增强机制旨在使输出图像多样化,这样生成的图像不仅在语义上相关,而且具有不同的类型和视觉外观。这一目标主要是通过一个额外的组件来估计生成的图像和文本之间的语义相关性,以最大限度地提高输出的多样性。

动作增强GANs:运动增强机制旨在向输出图像添加时间维度,以便它们能够形成与文本描述相关的有意义的动作。这一目标主要通过两步过程实现,首先生成与文本“动作”匹配的图像,然后进行映射或对齐过程,以确保图像在时间顺序上是一致的。

打个比方,现在要求生成一个玫瑰花的图片:第一组人用他们喜欢的花生成玫瑰,第二组人用他的背景(花园)寻找到高清晰的玫瑰花,第三组倾向于生成像玫瑰但颜色和外观多样的花,第四组人不仅生成玫瑰花,更展示玫瑰花的生长、玫瑰花魔术或者用玫瑰花讲个故事。

3.4每一类的典型方法

3.4.1 语义增强GANs

DC-GAN: 在文本特征上训练深层卷积生成对抗网络,多模式学习模型,试图将上述无监督机器学习算法、递归神经网络(RNN)和生成性对抗性网络(GANs)连接起来,其唯一目的是加快文本到图像合成的生成。

DC-GAN的延展:GAN-CLS增加图文匹配辨别器,GAN-INT增加文本流形插值,GAN-INT-CLS综合,并提出了一种自适应损失函数(感知损失),不仅匹配文本描述,还能保留源图像中的不相关特征(比如背景)。

MC-GAN:提出了个合成块,保留基础图像的背景信息以生成新图像, 组合源图像的背景和源图像中不存在的文本描述的前景对象来合成目标图像。

3.4.2分辨率增强GANs

StackGAN:第一阶段将文本描述转换为包含多个条件变量的文本向量,并基于此生成64*64的低质量图像;第二阶段获取这张低质量图像和相同的文本向量,进行矫正和添加细节,生成高质量图像。

StackGAN++:在StackGAN的基础上加入更多层次GAN,并引入联合条件相似和无条件相似,图像质量更高。

AttnGAN:结构上与StackGAN++相似。文本编码器中引入LSTM。AttnGAN的第一阶段基于句子级文本嵌入和随机噪声向量生成低分辨率图像。输出与嵌入到“注意力模型”的单词级文本一起反馈,该模型将单词级条件变量与第一阶段图像的区域相匹配,生成单词-内容矩阵。然后将其与前一阶段的原始输出一起送入模型的下一阶段,不断提高分辨率。其逐区域添加“注意力”细节,而不是整个图像。引入DAMSM,它在最后阶段的结果之后用于计算生成的图像和嵌入在句子级和更细粒度单词级的文本之间的相似性。

HDGAN:提出了一种称为伴随层次嵌套对抗性目标,通过规范在不同的中间层生成的低分辨率图像来使得生成器可以捕获复杂的图像信息。另外,提出了一种可扩展的单流生成器架构来更好的联合判别器进行训练,从而生成高分辨率的图像。同时为了同时提高语义一致性和图像保真度,采用了一种多用途的对抗性损失来鼓励更有效地使用图像和文本信息。并且引入了视觉语义相似性度量, 有助于评估生成图像的一致性。

3.4.3多样性增强GANs

AC-GAN: 通过使用辅助分类器控制输出图像,提高输出图像的多样性。在AC-GAN中,除了GAN或cGAN中常用的真/假标签外,每个生成的图像都与类标签相关联。AC-GAN的鉴别器不仅输出源上的概率分布(即图像是真是假),还输出类标签上的概率分布,从而产生多样化的合成图像。

TAC-GAN: 与AC-GAN结构类似,但它将生成的图像条件化为文本描述,而不是类标签。这种设计使得TAC-GAN在图像合成方面更加通用。TAC-GAN生成网络的输入向量基于噪声向量和文本描述的嵌入向量表示。TAC-GAN的鉴别器与AC-GAN的鉴别器类似,它不仅可以预测图像是否伪造,还可以预测图像的标签。

Text-SeGAN:添加了一个回归层来估计图像和文本之间的语义相关性,而不是预测标签的分类器层。估计的语义引用是一个介于0和1之间的分数值,较高的值反映了图像和文本之间更好的语义相关性,不再限于某些类,在语义上与文本输入匹配。

MirrorGAN:采用镜像结构,从生成的图像反向学习输出文本(图像到文本的过程),以进一步验证生成的文本是否确实与输入文本一致。包括三个模块:语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块。T2I和I2T相结合,增强生成图像的多样性和语义一致性。

Scene Graph GAN:该方法使用图卷积对输入图进行处理。它通过预测对象的边界框和分割遮罩来计算场景布局。然后,它将计算出的布局转换为具有级联优化网络的图像。

3.4.4动作增强GANs

ObamaNet and T2S:ObamaNet改奥巴马的嘴型说话,T2S将口语(如文本)翻译成手语视频序列,通常通过两个步骤来实现:将文本转换为有意义的单元以生成图像,然后使用学习组件将图像按顺序排列,以获得最佳表现。更具体地说,使用基于RNN的机器翻译方法,文本被翻译成手语序列,然后,使用查找表将其映射到骨骼姿势序列。

T2V:Text to Video,结合了可变自动编码器(VAE)和生成对抗网络(GAN)。T2V依赖于两种类型的功能,静态功能和动态功能来生成视频。称为“要点”的静态特征用于绘制文本背景色和对象布局结构。另一方面,通过将输入文本转换为图像滤波器来考虑动态特征,最终形成由三个纠缠神经网络组成的视频发生器。生成的视频在语义上与文本相关,但质量较低。

StoryGAN:与从单个文本生成视频的T2V不同,StoryGaNims使用顺序GAN模型生成与指定文本一致的动态场景(即在多句段落中编写的故事),通过使用随机抽样,故事编码器打算学习整个故事的低维嵌入向量,以保持故事的连续性。上下文编码器用于在基于深度RNN的序列图像生成过程中捕获上下文信息。StoryGAN的两个鉴别器是评估生成图像的图像鉴别器和确保全局一致性的故事鉴别器。

3.5基准数据集与定量指标

基准数据集:不同GAN在各个基准数据集下的验证:

在这里插入图片描述在这里插入图片描述

定量评估指标:

IS:计算初始模型获得的条件分布的熵(随机性)以及大量生成图像的边缘分布,对于有意义的图像,其应分别为低和高。条件分布的低熵意味着评价者确信图像来自数据分布,而边缘分布的高熵意味着生成的图像集是多样的,这两者都是期望的特征。IS为两个熵之间的KL差。IS越高越好。

FCN:以类似的方式计算,这取决于这样一种直觉,即GAN生成的真实图像应该能够通过在相同分布的真实图像上训练的分类器进行正确分类。FCN越高越好。

FID:是另一种常用的评估指标,采用了不同的方法,实际上将生成的图像与分布中的真实图像进行比较。高FID意味着合成图像和真实图像的统计数据之间几乎并没有关系,反之亦然,所以FID越低越好。

SSIM(结构相似性):计算稍复杂,其值可以较好地反映人眼主观感受。一般取值范围:0-1,值越大,图像质量越好。

HC:人类分类器。

在这里插入图片描述在这里插入图片描述

四、阅读心得与体会

本文将基于GAN的文本图像合成框架分为四大类:语义增强GAN、分辨率增强GAN、多样性增强GAN和运动增强GAN。这个分类法提供了一个清晰的路线图,显示GAN在文本生成图像中不同方法的动机、体系结构和差异,并概述了它们的发展和关系。

本文的分类非常清晰,并且运动增强GANs中,T2S可以用于将文本转换为手语视频序列,T2V将文字转换为视频,StoryGAN使用顺序GAN模型生成与指定文本一致的动态场景,可以从多句段落中编写故事,非常的amazing。

下一篇:Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介

相关文章
|
11月前
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
243 0
|
12月前
|
机器学习/深度学习 传感器 自然语言处理
论文笔记:SpectralFormer Rethinking Hyperspectral Image Classification With Transformers_外文翻译
 高光谱(HS)图像具有近似连续的光谱信息,能够通过捕获细微的光谱差异来精确识别物质。卷积神经网络(CNNs)由于具有良好的局部上下文建模能力,在HS图像分类中是一种强有力的特征提取器。然而,由于其固有的网络骨干网的限制,CNN不能很好地挖掘和表示谱特征的序列属性。
111 0
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
|
机器学习/深度学习 存储 数据挖掘
【文本分类】Bag of Tricks for Efficient Text Classification
【文本分类】Bag of Tricks for Efficient Text Classification
【文本分类】Bag of Tricks for Efficient Text Classification
|
机器学习/深度学习 编解码 人工智能
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
|
机器学习/深度学习 自然语言处理 计算机视觉
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
MirrorGAN通过学习文本-图像-文本,试图从生成的图像中重新生成文本描述,从而加强保证文本描述和视觉内容的一致性。文章被2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:https://arxiv.org/abs/1903.05854 代码地址:https://github.com/qiaott/MirrorGAN
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
|
机器学习/深度学习 编解码 自然语言处理
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
基于GAN的文本生成图像,最早在2016年由Reed等人提出,最开始是Conditional GANs的扩展,仅在受限的数据集取得成果,小图像分辨率64*64。
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
|
机器学习/深度学习 编解码 人工智能
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2105.13290v3.pdf 代码地址:https://github.com/THUDM/CogView 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
|
存储 机器学习/深度学习 自然语言处理
Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络
这篇文章提出了动态记忆生成对抗网络(DM-GAN)来生成高质量的图像。该方法可以在初始图像生成不好时,引入动态存储模块来细化模糊图像内容,从而能够从文本描述中更加准确地生成图像。 文章被2019年CVPR(IEEE Conference on Computer Vision and Pattern Recognition)会议收录。 论文地址: https://arxiv.org/abs/1904.01310?context=cs 代码地址: https://github.com/MinfengZhu/DM-GAN
Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络
|
机器学习/深度学习 人工智能 自然语言处理
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。 论文地址:https://arxiv.org/abs/2008.05865 代码地址:https://github.com/tobran/DF-GAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型