Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

简介: 这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。

@[TOC](A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis:用于文本生成图像的对抗性神经网络综述与分类)

这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。

综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。

本文是阅读这篇文章的阅读报告。

文章下载地址:https://arxiv.org/pdf/1910.09399.pdf

一、索引

Agnese J ,  Herrera J ,  Tao H , et al. A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis[J].  2019.

二、原文摘要

文本到图像合成是指将人类文本描述(以关键字或句子的形式)翻译成与文本具有相似语义的图像的计算方法。在早期的研究中,图像合成主要依赖于字到图像的相关性分析,并结合有监督的方法来找到与文本匹配的视觉内容的最佳对齐方式。深度学习(DL)的最新进展带来了一套新的无监督深度学习方法,特别是深度生成模型,它能够使用经过适当训练的神经网络模型生成逼真的视觉图像。从基于计算机视觉的方法到人工智能(AI)驱动的方法的方向转变激发了业界的浓厚兴趣,如虚拟现实、娱乐(电子竞技)游戏和计算机辅助设计等,从基于文本的自然语言描述中自动生成引人注目的图像。

在本文中,我们回顾了文本到图像合成研究领域的最新进展。我们的目标是通过对最先进的模型在架构和设计方面进行比较评估,从而提供价值。我们的综述首先介绍了图像合成及其面临的挑战,然后回顾了生成对抗网络(GANs)和深度卷积编码器神经网络(DCNN)等关键概念。然后,我们提出了一种分类法,将基于GAN的文本图像合成归纳为四大类:语义增强GAN、分辨率增强GAN、多样性增强GAN和运动增强GAN。我们阐述了每个小组的主要目标,并进一步回顾了每个小组中典型的GAN架构。分类法和综述概述了不同方法的技术和演变,并最终提供了一个清晰的路线图,以总结利用GANs和DCNN在类别(如人脸、鸟类、花卉、房间内部、从边缘地图重建对象)中产生迷人结果的同期解决方案列表(游戏)等。调查结束时将比较提出的解决方案、尚未解决的挑战以及文本到图像合成领域的未来发展。

三、主要内容

3.1传统T2I

传统的文本生成图像搜索与文本最相关的图像,更改部分特征;缺乏生成新图像的能力,而后发展到用VAE(variational-autoencoders)并根据属性生成图像,图像质量不高,且多样性低受到有限属性的约束。

传统T2I:

在这里插入图片描述在这里插入图片描述

Attribute2Image模型:

在这里插入图片描述在这里插入图片描述

3.2预备工作与基本框架

单一的GAN框架:

在这里插入图片描述在这里插入图片描述

多层次的GAN框架:

在这里插入图片描述在这里插入图片描述

A:一个生成器,多个辨别器

B:多级GAN,一层的结果输出送入下层作为输入

C:对称性结构GAN

D:分层嵌套GAN

3.3分类方法

本综述将基于GAN的文本生成图像的发展分为四大类:语义增强、分辨率增强、多样性增强、动作增强。(Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs)

在这里插入图片描述在这里插入图片描述

语义增强GANs:语义增强GANs代表了用于文本到图像合成的GAN框架的先驱作品。GAN框架的主要重点是确保生成的图像在语义上与输入文本相关。这一目标主要是通过使用神经网络将文本编码为密集特征来实现的,这些特征被进一步馈送到第二个网络以生成与文本匹配的图像。

分辨率增强GANs:分辨率增强机制主要关注生成与文本语义匹配的高质量图像。这主要是通过多级GAN框架实现的,其中来自早期GAN的输出被馈送到第二级(或后期)GAN以生成更好的质量图像。

多样性增强GANs:多样性增强机制旨在使输出图像多样化,这样生成的图像不仅在语义上相关,而且具有不同的类型和视觉外观。这一目标主要是通过一个额外的组件来估计生成的图像和文本之间的语义相关性,以最大限度地提高输出的多样性。

动作增强GANs:运动增强机制旨在向输出图像添加时间维度,以便它们能够形成与文本描述相关的有意义的动作。这一目标主要通过两步过程实现,首先生成与文本“动作”匹配的图像,然后进行映射或对齐过程,以确保图像在时间顺序上是一致的。

打个比方,现在要求生成一个玫瑰花的图片:第一组人用他们喜欢的花生成玫瑰,第二组人用他的背景(花园)寻找到高清晰的玫瑰花,第三组倾向于生成像玫瑰但颜色和外观多样的花,第四组人不仅生成玫瑰花,更展示玫瑰花的生长、玫瑰花魔术或者用玫瑰花讲个故事。

3.4每一类的典型方法

3.4.1 语义增强GANs

DC-GAN: 在文本特征上训练深层卷积生成对抗网络,多模式学习模型,试图将上述无监督机器学习算法、递归神经网络(RNN)和生成性对抗性网络(GANs)连接起来,其唯一目的是加快文本到图像合成的生成。

DC-GAN的延展:GAN-CLS增加图文匹配辨别器,GAN-INT增加文本流形插值,GAN-INT-CLS综合,并提出了一种自适应损失函数(感知损失),不仅匹配文本描述,还能保留源图像中的不相关特征(比如背景)。

MC-GAN:提出了个合成块,保留基础图像的背景信息以生成新图像, 组合源图像的背景和源图像中不存在的文本描述的前景对象来合成目标图像。

3.4.2分辨率增强GANs

StackGAN:第一阶段将文本描述转换为包含多个条件变量的文本向量,并基于此生成64*64的低质量图像;第二阶段获取这张低质量图像和相同的文本向量,进行矫正和添加细节,生成高质量图像。

StackGAN++:在StackGAN的基础上加入更多层次GAN,并引入联合条件相似和无条件相似,图像质量更高。

AttnGAN:结构上与StackGAN++相似。文本编码器中引入LSTM。AttnGAN的第一阶段基于句子级文本嵌入和随机噪声向量生成低分辨率图像。输出与嵌入到“注意力模型”的单词级文本一起反馈,该模型将单词级条件变量与第一阶段图像的区域相匹配,生成单词-内容矩阵。然后将其与前一阶段的原始输出一起送入模型的下一阶段,不断提高分辨率。其逐区域添加“注意力”细节,而不是整个图像。引入DAMSM,它在最后阶段的结果之后用于计算生成的图像和嵌入在句子级和更细粒度单词级的文本之间的相似性。

HDGAN:提出了一种称为伴随层次嵌套对抗性目标,通过规范在不同的中间层生成的低分辨率图像来使得生成器可以捕获复杂的图像信息。另外,提出了一种可扩展的单流生成器架构来更好的联合判别器进行训练,从而生成高分辨率的图像。同时为了同时提高语义一致性和图像保真度,采用了一种多用途的对抗性损失来鼓励更有效地使用图像和文本信息。并且引入了视觉语义相似性度量, 有助于评估生成图像的一致性。

3.4.3多样性增强GANs

AC-GAN: 通过使用辅助分类器控制输出图像,提高输出图像的多样性。在AC-GAN中,除了GAN或cGAN中常用的真/假标签外,每个生成的图像都与类标签相关联。AC-GAN的鉴别器不仅输出源上的概率分布(即图像是真是假),还输出类标签上的概率分布,从而产生多样化的合成图像。

TAC-GAN: 与AC-GAN结构类似,但它将生成的图像条件化为文本描述,而不是类标签。这种设计使得TAC-GAN在图像合成方面更加通用。TAC-GAN生成网络的输入向量基于噪声向量和文本描述的嵌入向量表示。TAC-GAN的鉴别器与AC-GAN的鉴别器类似,它不仅可以预测图像是否伪造,还可以预测图像的标签。

Text-SeGAN:添加了一个回归层来估计图像和文本之间的语义相关性,而不是预测标签的分类器层。估计的语义引用是一个介于0和1之间的分数值,较高的值反映了图像和文本之间更好的语义相关性,不再限于某些类,在语义上与文本输入匹配。

MirrorGAN:采用镜像结构,从生成的图像反向学习输出文本(图像到文本的过程),以进一步验证生成的文本是否确实与输入文本一致。包括三个模块:语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块。T2I和I2T相结合,增强生成图像的多样性和语义一致性。

Scene Graph GAN:该方法使用图卷积对输入图进行处理。它通过预测对象的边界框和分割遮罩来计算场景布局。然后,它将计算出的布局转换为具有级联优化网络的图像。

3.4.4动作增强GANs

ObamaNet and T2S:ObamaNet改奥巴马的嘴型说话,T2S将口语(如文本)翻译成手语视频序列,通常通过两个步骤来实现:将文本转换为有意义的单元以生成图像,然后使用学习组件将图像按顺序排列,以获得最佳表现。更具体地说,使用基于RNN的机器翻译方法,文本被翻译成手语序列,然后,使用查找表将其映射到骨骼姿势序列。

T2V:Text to Video,结合了可变自动编码器(VAE)和生成对抗网络(GAN)。T2V依赖于两种类型的功能,静态功能和动态功能来生成视频。称为“要点”的静态特征用于绘制文本背景色和对象布局结构。另一方面,通过将输入文本转换为图像滤波器来考虑动态特征,最终形成由三个纠缠神经网络组成的视频发生器。生成的视频在语义上与文本相关,但质量较低。

StoryGAN:与从单个文本生成视频的T2V不同,StoryGaNims使用顺序GAN模型生成与指定文本一致的动态场景(即在多句段落中编写的故事),通过使用随机抽样,故事编码器打算学习整个故事的低维嵌入向量,以保持故事的连续性。上下文编码器用于在基于深度RNN的序列图像生成过程中捕获上下文信息。StoryGAN的两个鉴别器是评估生成图像的图像鉴别器和确保全局一致性的故事鉴别器。

3.5基准数据集与定量指标

基准数据集:不同GAN在各个基准数据集下的验证:

在这里插入图片描述在这里插入图片描述

定量评估指标:

IS:计算初始模型获得的条件分布的熵(随机性)以及大量生成图像的边缘分布,对于有意义的图像,其应分别为低和高。条件分布的低熵意味着评价者确信图像来自数据分布,而边缘分布的高熵意味着生成的图像集是多样的,这两者都是期望的特征。IS为两个熵之间的KL差。IS越高越好。

FCN:以类似的方式计算,这取决于这样一种直觉,即GAN生成的真实图像应该能够通过在相同分布的真实图像上训练的分类器进行正确分类。FCN越高越好。

FID:是另一种常用的评估指标,采用了不同的方法,实际上将生成的图像与分布中的真实图像进行比较。高FID意味着合成图像和真实图像的统计数据之间几乎并没有关系,反之亦然,所以FID越低越好。

SSIM(结构相似性):计算稍复杂,其值可以较好地反映人眼主观感受。一般取值范围:0-1,值越大,图像质量越好。

HC:人类分类器。

在这里插入图片描述在这里插入图片描述

四、阅读心得与体会

本文将基于GAN的文本图像合成框架分为四大类:语义增强GAN、分辨率增强GAN、多样性增强GAN和运动增强GAN。这个分类法提供了一个清晰的路线图,显示GAN在文本生成图像中不同方法的动机、体系结构和差异,并概述了它们的发展和关系。

本文的分类非常清晰,并且运动增强GANs中,T2S可以用于将文本转换为手语视频序列,T2V将文字转换为视频,StoryGAN使用顺序GAN模型生成与指定文本一致的动态场景,可以从多句段落中编写故事,非常的amazing。

下一篇:Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介

相关文章
|
监控 搜索推荐 数据挖掘
淘宝 API 接口的调用频率限制是否会因应用类型而异?
淘宝API调用频率限制依应用类型而异。电商管理类如商家后台、商品批量上传工具,调用频次较高;数据分析类如市场调研、店铺分析工具,频次较严;导购推荐类如第三方导购平台、社交媒体导购应用,依据规模与信誉设定;其他如开发者测试、个人小型应用则限制较宽松。
|
机器学习/深度学习 资源调度 计算机视觉
RT-DETR改进策略【注意力机制篇】| NAM 即插即用模块,重新优化通道和空间注意力(含HGBlock二次创新)
RT-DETR改进策略【注意力机制篇】| NAM 即插即用模块,重新优化通道和空间注意力(含HGBlock二次创新)
436 1
RT-DETR改进策略【注意力机制篇】| NAM 即插即用模块,重新优化通道和空间注意力(含HGBlock二次创新)
|
监控 数据可视化 数据挖掘
干货|FESCO Adecco外企德科:Quick BI打造战略管理“观数台”(1)
干货|FESCO Adecco外企德科:Quick BI打造战略管理“观数台”
517 4
|
11月前
|
SQL 数据可视化 大数据
QuickBI产品和服务的双重绝杀
作为一名大数据开发工程师,我从2020年开始接触阿里云服务,最初简单尝试了QuickBI的可视化功能。2022年,因公司需求深入使用QuickBI进行数据可视化,对比多款工具后选定QuickBI,因其模板丰富、生态完善和技术售后出色。使用过程中,QuickBI的技术支持帮助我解决了诸多难题,如图表配置、复杂需求调试和SQL问题排查。其API接口功能给我留下深刻印象,能有效解决用户权限控制问题。如今再次选择QuickBI用于实时数仓的数据可视化建设,希望它能继续保持优质服务,助力更多开发者成为数据报表大师。
323 9
|
分布式计算 大数据 数据处理
浅谈几个经典大数据处理框架
【6月更文挑战第15天】本文介绍企业如何在数据洪流中保持竞争力需借助可扩展平台和数据策略。数据管道整合多元数据源,便于分析和流转。Kappa架构专注于实时处理(如通过Kafka、Spark Streaming),适合实时响应场景;Lambda架构结合批处理与实时处理(如Spark、Hadoop与Flink),平衡实时性和批处理,易于开发和维护。Apache Beam提供统一模型,适用于流处理和批处理,提升代码复用和效率。这两种架构满足现代应用对数据一致、性能和灵活性的需求。
1360 3
浅谈几个经典大数据处理框架
|
网络安全
SSL证书为什么要收费?
SSL证书为何要收费?本文解析了五大原因:1) 认证与验证的成本;2) 技术支持和保障的必要性;3) 品牌信誉及责任的维护;4) 不同类型证书的功能差异;5) 商业运作的需求。收费确保了证书的安全性和可靠性。
|
机器学习/深度学习
深度学习笔记(十二):普通卷积、深度可分离卷积、空间可分离卷积代码
本文探讨了深度可分离卷积和空间可分离卷积,通过代码示例展示了它们在降低计算复杂性和提高效率方面的优势。
3326 2
深度学习笔记(十二):普通卷积、深度可分离卷积、空间可分离卷积代码
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU服务器全解析_GPU价格收费标准_GPU优势和使用说明
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等场景。作为亚太领先的云服务商,阿里云GPU云服务器具备高灵活性、易用性、容灾备份、安全性和成本效益,支持多种实例规格,满足不同业务需求。
3472 2
|
存储 自然语言处理 NoSQL
Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读
引入知识图谱技术后,传统RAG链路到Graph RAG链路会有什么样的变化,如何兼容RAG中的向量数据库(Vector Database)和图数据库(Graph Database)基座,以及蚂蚁的Graph RAG开源技术方案和未来优化方向。
8019 2
Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读
|
机器学习/深度学习 IDE TensorFlow
【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘
【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘
1940 1