Text to Image综述阅读(1.2)发展与基本方法 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)

简介: 文本生成图像的发展与基本方法

@[TOC](Text to Image(二)发展与基本方法)

本系列是根据2021年的一篇论文《Adversarial Text-to-Image Synthesis: A Review》理解所写,主要在于总结和归纳基于GAN的“文本生成图像”(text to image)方向的研究情况。很多内容为个人理解,仅供学习参考。

论文地址:https://arxiv.org/abs/2101.09983

三、发展与基本方法

1、起源:GAN-INT-CLS和TAC-GAN

在这里插入图片描述

GAN-INT-CLS:输入TE后的文本和一定噪声,使用GAN的生成器拥有的图片合成能力合成一张图像传给辨别器,辨别器根据生成的图像和TE的文本来识别真假,这是初始最简单的模型。

TAC-GAN:在辨别器上面做出改动,他加了一个辅助分类任务y,从而辨别生成的图像是否符合y类。

文本理解采用:pre-trained char-CNN-RNN text encoder

y:TAC-GAN使用的一个辅助分类任务

φ:TE的文本,Embedding φ

z:噪声

TE:Text Encoder

2、栈的引入

2.1、StackGAN

在这里插入图片描述

StackGAN采用了两级的GAN,第一个生成器G0生成6464,第二个生成器G1在此基础上生成256256。

CA:Conditioning Augmentation(CA),一个文本理解模块

c:CA后的文本  

z:噪声    

φ:Embedding文本

CA:Conditoning Augmentation,一种条件增强技术,帮助在不同的分辨率下生成更一致的图像

在这里插入图片描述

2.2、StackGAN++

在这里插入图片描述

StackGAN++将级数提高到了多层,依然是逐级提高分辨率,但采用端到端的方式进行训练。

2.3、其他

FusedGAN、HDGAN、PPGAN、HfGAN,文章中也有介绍,这里暂时不展开。

2.4、创新与不足

改进:把生成高质量图片这个复杂问题,分解成了一些更好控制的子问题;

不足:输入是全局的句子向量,丢失了细粒度的单词级别的信息,即丢失了相应的细节。

3、注意力机制的引入

3.1、AttnGAN

在这里插入图片描述

AttnGAN是在Stack++GAN进行了延伸,加入了一个attention module来关注自然语言描述中的相关单词,进而合成图像不同子区域的细粒度细节。

w:单词特征  z:噪声 c:CA后的文本

attention module:包括word features和sentence features;

一个具体例子:

在这里插入图片描述

3.2、其他

SEGAN、ControlGAN,文章中也有介绍,这里暂时不展开。

3.3、创新

提出了一种注意力集中的多模态相似度模型,以计算出细粒度的图像-文本匹配损失。效果明显提高,在CUB数据集上比之前的最优结果提升14.14%,在更具挑战性的COCO数据集上提高了170.25%。

4、孪生(siamese)网络的引入

4.1、SD-GAN

在这里插入图片描述

SD-GAN的每个分支对不同的输入进行操作,采用对比损失来最小化由同一真实图像的不同描述生成图像的距离,同时最大化不同真实图像的生成图像距离。

简单的来说就是,设置两个并行的GAN,输入相同真实图像的不同文字描述,如果他们两个生成图像差不多则鼓励模型,如果生成的图像相差甚远则抑制。这样既可以提取出语义的一致性部分,又可以保留描述的多样性和细节部分。

举个例子:

在这里插入图片描述

4.2、其他

SEGAN、Text-SeGAN:在文章中有介绍,其增加一个与语义相近的真实图像距离处理、增加语义逐渐变难。

4.3、创新

提出了新的思路,而且SDGAN可以对描述文本中小的变化做出相应的改变。

5、循环(cycle)网络的引入

5.1、MirrorGAN

在这里插入图片描述

MirrorGAN:才有了循环的架构,使T2I-->I2T-->T2I-->I2T….加入了语义文本再生和对齐模块,以从生成的图像重新生成文本描述,使其在语义上与给定的文本描述对齐。达到文本和图像的语义一致性判别。

简单来说,MirrorGAN先从文本生成图像,然后以生成的图像重新再生成文本,使两次的文本尽可能的靠近。

如果一个模型具有语义一致性,那么从输入文本就应该与文本生成图像再生成的文本一致。

举个例子:

在这里插入图片描述

5.2 创新

解决文本和视觉之间语义一致性,COCO 数据集上成绩最佳,生成的高质量图像具有与输入文本描述一致的语义。

6、记忆(memory)网络的引入

6.1、DM-GAN

DM-GAN,添加一个记忆机制,来处理 badly-generated initial images,将初始图像和单词特征作为输入,比较文本和图像特征计算每个单词的重要性,引入一个 memory writing gate 来动态的选择和产生图像相关的单词

6.2、创新

1)提出一个新颖的 GNA model 组合了 dynamic memory component 来产生高质量的图像,即使初始图像很差;

2). 提出一个 memory writing gate 来根据初始图像,选择相关的单词;

3). 提出 response gate 来自适应的融合来自图像和记忆中的信息;

4). 实验结果顶尖;

7、无条件模型的引入

7.1、StyleGAN

在这里插入图片描述

z:噪声  c:文本特征  w:中间级潜在特征

基于风格驱动,每次加入noise控制风格和潜在语义,即可以生成更加多样化的图像。

7.2、创新

提高了图像的多样性:对高级属性和随机变化(的多样性)方面的分离、中间潜在空间的线性研究增进了我们对GAN的理解和可控性生成。

下一篇:Text to Image综述阅读(1.3)度量标准与未来研究方向 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)

相关文章
|
机器学习/深度学习 编解码 人工智能
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
这是一篇用GAN做文本生成图像(Text to Image)的综述阅读报告。 综述名为:《A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis》,发表于2019年,其将文本生成图像分类为Semantic Enhancement GANs, Resolution Enhancement GANs, Diversity Enhancement GANs, Motion Enhancement GANs四类,并且介绍了代表性model。
Text to image综述阅读(2)A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis
|
机器学习/深度学习 编解码 数据可视化
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
文章被2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:[https://ieeexplore.ieee.org/document/9157040/citations#citations](https://ieeexplore.ieee.org/document/9157040/citations#citations) CookGAN旨在解决因果关系效应。食物图像的因果演化隐含在一个连续的网络中。 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
|
机器学习/深度学习 编解码 自然语言处理
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
基于GAN的文本生成图像,最早在2016年由Reed等人提出,最开始是Conditional GANs的扩展,仅在受限的数据集取得成果,小图像分辨率64*64。
Text to Image综述阅读(1.1):介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review(基于GAN的文本生成图像)
|
机器学习/深度学习 编解码 人工智能
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2105.13290v3.pdf 代码地址:https://github.com/THUDM/CogView 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
|
机器学习/深度学习 自然语言处理 计算机视觉
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
MirrorGAN通过学习文本-图像-文本,试图从生成的图像中重新生成文本描述,从而加强保证文本描述和视觉内容的一致性。文章被2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:https://arxiv.org/abs/1903.05854 代码地址:https://github.com/qiaott/MirrorGAN
Text to image论文精读 MirrorGAN: Learning Text-to-image Generation by Redescription(通过重新描述学习从文本到图像的生成)
|
机器学习/深度学习 编解码 人工智能
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
Text to image综述阅读(3)An Introduction to Image Synthesis with Generative Adversarial Nets生成对抗网图像合成简介
|
机器学习/深度学习 编解码 计算机视觉
Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成
本篇文章提出了叠加生成对抗网络(StackGAN)与条件增强,用于从文本合成现实图像,被2017年ICCV(International Conference on Computer Vision)会议录取。 论文地址: https://arxiv.org/pdf/1612.03242.pdf 代码地址: https://github.com/hanzhanggit/StackGAN 本篇是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 StackGAN:Text to Photo-realistic Image Synthesis with Stacked GAN具有堆叠生成对抗网络文本到图像合成
|
机器学习/深度学习 人工智能 自然语言处理
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。 论文地址:https://arxiv.org/abs/2008.05865 代码地址:https://github.com/tobran/DF-GAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
|
机器学习/深度学习 传感器 编解码
Text to image论文精读 GAN-CLS和GAN-INT:Generative Adversarial Text to Image Synthesis生成性对抗性文本图像合成(文本生成图像)
这是一篇用GAN做文本生成图像(Text to Image、T2I)的论文,文章在2016年由Reed等人发布,被ICML会议录取。可以说是用GAN做文本生成图像的开山之作。 论文链接:https://arxiv.org/pdf/1605.05396.pdf 代码链接: https://github.com/zsdonghao/text-to-image 本篇文章是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 GAN-CLS和GAN-INT:Generative Adversarial Text to Image Synthesis生成性对抗性文本图像合成(文本生成图像)
|
机器学习/深度学习 编解码 自然语言处理
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)
这篇文章提出了一种注意力生成对抗网络(AttnGAN),它允许注意力驱动、多阶段细化细粒度文本到图像的生成,此外,还提出了一种深度注意多模态相似性模型来计算细粒度图像-文本匹配损失以训练生成器,进而生成更逼真的图像。 文章被2018年CVPR(IEEE Conference on Computer Vision and Pattern Recognition)会议收录。 论文地址: https://arxiv.org/pdf/1711.10485.pdf 代码地址: https://github.com/taoxugit/AttnGAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)