Text to image论文精读SSA-GAN:基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

简介: Semantic-Spatial Aware GAN提出了一种新的语义空间感知GAN框架,文章发表于2021年10月。论文地址:https://arxiv.org/pdf/2104.00567v3.pdf代码地址:https://github.com/wtliao/text2image本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。

@TOC

Semantic-Spatial Aware GAN提出了一种新的语义空间感知GAN框架,文章发表于2021年10月。

论文地址:https://arxiv.org/pdf/2104.00567v3.pdf

代码地址:https://github.com/wtliao/text2image

本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。

一、原文摘要

文本到图像生成(T2I)模型旨在生成语义上与文本描述一致的照片逼真图像。在生成性对抗网络(GAN)最新进展的基础上,现有的T2I模型取得了巨大进展。然而,仔细检查它们生成的图像会发现两个主要局限性:(1)条件批量归一化方法平等适用于整个图像特征映射,忽略了局部语义;(2) 文本编码器在训练过程中是固定的,它应该与图像生成器一起训练,以学习更好的文本表示,从而生成图像。为了解决这些局限性,我们提出了一种新的语义空间感知GAN框架,该框架以端到端的方式进行训练,以便文本编码器能够利用更好的文本信息。具体来说,我们介绍了一种新的语义空间感知卷积网络,该网络(1)学习以文本为条件的语义自适应变换,以有效地融合文本特征和图像特征;(2)以弱监督的方式学习掩码映射,该方法依赖于当前的文本-图像融合过程,以在空间上指导变换。在具有挑战性的COCO和CUB bird数据集上进行的实验表明,我们的方法在视觉保真度和与输入文本描述的一致性方面优于最近的最新方法

二、为什么提出SSA-GAN

  1. 堆叠式的结构虽然能够从粗到细生成图像,但是多个生成器-鉴别器对会导致更高的计算量和更不稳定的训练过程,且前两阶段的生成图像质量决定了最终的输出,如果前阶段没有生成大致框架的图像,后面生成的图像完全无法提高质量。
  2. 在以往的研究中,文本编码器在预训练完成后,就固定了参数,不再参与GAN整体框架的训练,如果文本编码器可以与图像生成器联合训练,它将更好地利用文本信息生成图像。

三、SSA-GAN

SSA-GAN的框架如下:

在这里插入图片描述

整体来看,和DF-GAN很像,也是单级主干结构,但是把UPBlocks改成了 SSACN Blocks。SSA-GAN包括一个文本编码器,一个生成器,一个鉴别器,首先由一个随机整体噪声输入,经过FC层和一次Reshape后,连接七个SSACN层,生成图片后输入鉴别器进行鉴别,需要注意的是,在SSA-GAN中,文本编码器不固定参数,其也是生成器的一部分。

3.1、文本编码器

依旧采用的是AttnGAN的那套,其是一个双向LSTM,通过最小化深度注意多模态相似模型(DAMSM)损失,使用真实图像-文本对进行预训练。

唯一不同的是,在之前的工作中,文本编码器都是固定参数了的,但是作者在这里试着把文本编码器归入生成器一起进行微调,实验显示其与SSA-GAN有一个微妙的相容,能进一步提高性能。

3.2、SSACN 块

SSACN块全称为:Semantic-Spatial Aware Convolutional Network

结构如下:

在这里插入图片描述

输入为上一个阶段输出的图像特征(图左下)image.png和文本特征向量(图上方),输出为image.png并传递给下一阶段作为输入。其中image.png分别为第i个块的宽、高和通道数。

每个SSACN块包括一个上采样块,一个掩码预测器,一个语义空间条件批量规范化(SSCBN)和一个残差块

3.2.1、上采样块

上采样块使用双线性插值将图像特征的宽度和高度加倍

3.2.2、掩码预测器

模型使用的弱监督掩码预测器如下图所示,灰色框内为主体

在这里插入图片描述

以上采样后的图像特征为输入,经过卷积、BN、Relu、卷积和Sigmoid后输出掩码图image.png,该掩码图直观的指示了当前图像特征映射的哪些部分需要使用文本信息进行细节增强,以便增强语义一致性

3.2.3、语义条件批量规范化(SCBN)

SCBN全称为:Semantic Condition Batch Normalization,其框架图如下,主体结构和DF-GAN很像,主要还是两个MLP。

在这里插入图片描述

首先解释什么是标准BN:给定一个输入为 x∈image.png,n是batch size,c是通道,h和w是高和宽,BN首先将x标准化为每个特征通道的零平均值和单位偏差:

image.png

其中image.png为一个数值稳定性的小正常数。

然后进行通道仿射变换image.png,学习参数γc和βc。

在CBN中,公式被重述为:

image.png

其就是将参数换成了一个函数,CBN能学习自适应于仿射变换给定条件的调制参数γ和β。

SCBN就是在CBN的具体实现,文本向量e作为自变量的函数image.pngimage.pngimage.png代表了MLP块。

3.2.4、语义空间条件批量规范化(S-SCBN)

不添加更多的空间信息,则上一步的SCBN将在图像特征图上均匀地工作。理想情况下,我们希望微调只对特征图中与文本相关的部分起作用。

于是作者将掩码预测器输出的掩码图添加到SCBN中作为空间条件,学习参数的公式被修改为:

image.png

其中,可以看出image.png不仅决定在何处添加文本信息,还起到了权重作用即决定要在某个部分上加强多少文本信息。这就是S-SCBN的原理。

3.3、鉴别器

鉴别器DF-GAN相同,一样是单向输出和匹配感知梯度惩罚(MA-GP),这里不再赘述。

3.4、损失函数

鉴别器损失:采用了单向输出鉴别器,使用了MA-GP损失相关的对抗性损失

image.png

其中s是给定的文本描述,image.png是不匹配的文本描述,x是对应于s的真实图像,image.png是生成的图像,D()是鉴别器给出的是否匹配的判断,image.png和p是MA-GP的超参数。

生成器损失:生成器损失由对抗损失和DAMSM(单词级细粒度图像文本匹配)损失构成:

image.png

四、实验

4.1、数据集

CUB-Birds、COCO

4.2、评价指标

IS、FID

4.3、实验细节

硬件:4块 2080Ti

架构:Pytorch

优化器:Adam: image.png=0.0,image.png=0.9
学习率:生成器0.0001,鉴别器0.0004
超参数:p=6,

网络异常,图片无法展示
|
{MA} λ M A=2, image.png=0.1

epoch轮数: CUB 600轮 COCO 120轮

4.4、实验结果

4.4.1、定量分析

在这里插入图片描述

4.4.3、定性分析

生成图片的效果:

在这里插入图片描述

在不同SSACN块中预测的掩码贴图,从左到右七个由浅至深的预测掩码图:

在这里插入图片描述

详情请看原文

4.4.2、消融研究

在这里插入图片描述

3是指把文本编码器也代入进行微调。可以看到虽然IS有提高,但是FID的指标却没那么好了,作者分析的原因是微调文本编码器有助于文本图像融合,提高文本图像的一致性,从而提高is分数,文本与图像一致的同时导致图像多样性下降,所以FID会变差。个人认为这个说服力不太强,有待商榷。

使用的不同数量的掩码图对实验效果的影响:

在这里插入图片描述

五、总结

该论文提出了一种新的用于T2I生成的语义空间感知GAN(SSA-GAN)框架,主要是在生成器上做的工作,创新如下:

  1. 一种语义空间感知卷积网络(SSACN)模块,通过基于当前生成的图像特征预测掩码映射草图,这种掩码图不仅可以决定在何处添加文本信息,还起到了权重作用即决定要在某个部分上加强多少文本信息。
  2. 一种新的仿射参数计算方法,将掩码图添加到SCBN中作为空间条件,然后从编码的文本向量中学习仿射参数,对语义空间条件进行批量归一化。

最后

💖 个人简介:人工智能领域研究生,目前主攻文本生成图像(text to image)方向

📝 个人主页:中杯可乐多加冰

🔥  限时免费订阅:文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

相关文章
|
编解码 自然语言处理 数据挖掘
Recognize Anything:一个强大的图像标记模型
Recognize Anything是一种新的图像标记基础模型,与传统模型不同,它不依赖于手动注释进行训练
180 2
|
1月前
|
机器学习/深度学习 计算机视觉
【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
本文介绍了ICCV 2019的一篇关于小样本图像语义分割的论文《PANet: Few-Shot Image Semantic Segmentation With Prototype Alignment》。PANet通过度量学习方法,从支持集中的少量标注样本中学习类的原型表示,并通过非参数度量学习对查询图像进行分割。该方法在PASCAL-5i数据集上取得了显著的性能提升,1-shot和5-shot设置下的mIoU分别达到48.1%和55.7%。PANet还引入了原型对齐正则化,以提高模型的泛化能力。
32 0
【小样本图像分割-1】PANet: Few-Shot Image Semantic Segmentation with Prototype Alignment
|
1月前
|
机器学习/深度学习 人工智能 文件存储
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
本文介绍了一种名为HyperSegNAS的新方法,该方法结合了一次性神经架构搜索(NAS)与3D医学图像分割,旨在解决传统NAS方法在3D医学图像分割中计算成本高、搜索时间长的问题。HyperSegNAS通过引入HyperNet来优化超级网络的训练,能够在保持高性能的同时,快速找到适合不同计算约束条件的最优网络架构。该方法在医疗分割十项全能(MSD)挑战的多个任务中展现了卓越的性能,特别是在胰腺数据集上的表现尤为突出。
20 0
【小样本图像分割-3】HyperSegNAS: Bridging One-Shot Neural Architecture Search with 3D Medical Image Segmentation using HyperNet
|
机器学习/深度学习 计算机视觉
【计算机视觉 | 目标检测】RegionCLIP: Region-based language-image pretraining
RegionCLIP的目的便是实现从image-text pairs的匹配到region-text pairs的匹配。构建一个模型进行图像区域的推理研究(如目标检测),目的是学习一个包含丰富的对象概念的区域视觉-语义空间,以便它可以用于开放词汇的目标检测。实质上就是训练一个视觉编码器V,使它可以编码图像区域,并将它们与语言编码器L编码的区域描述相匹配。
|
机器学习/深度学习 编解码 算法
深度学习论文阅读目标检测篇(四)中英文对照版:YOLOv1《 You Only Look Once: Unified, Real-Time Object Detection》
我们提出了 YOLO,一种新的目标检测方法。以前的目标检测工 作重复利用分类器来完成检测任务。相反,我们将目标检测框架看作 回归问题,从空间上分割边界框和相关的类别概率。单个神经网络在 一次评估中直接从整个图像上预测边界框和类别概率。由于整个检测 流水线是单一网络,因此可以直接对检测性能进行端到端的优化。
246 0
|
机器学习/深度学习 编解码 数据可视化
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
文章被2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)会议录用。 论文地址:[https://ieeexplore.ieee.org/document/9157040/citations#citations](https://ieeexplore.ieee.org/document/9157040/citations#citations) CookGAN旨在解决因果关系效应。食物图像的因果演化隐含在一个连续的网络中。 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读 从菜谱描述自动生成菜肴照片 CookGAN: Causality based Text-to-Image Synthesis(基于因果关系的文本图像合成 )
|
存储 计算机视觉 索引
目标检测的Tricks | 【Trick11】label的缩放与显示
目标检测的Tricks | 【Trick11】label的缩放与显示
157 0
目标检测的Tricks | 【Trick11】label的缩放与显示
|
机器学习/深度学习 编解码 自然语言处理
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)
这篇文章提出了一种注意力生成对抗网络(AttnGAN),它允许注意力驱动、多阶段细化细粒度文本到图像的生成,此外,还提出了一种深度注意多模态相似性模型来计算细粒度图像-文本匹配损失以训练生成器,进而生成更逼真的图像。 文章被2018年CVPR(IEEE Conference on Computer Vision and Pattern Recognition)会议收录。 论文地址: https://arxiv.org/pdf/1711.10485.pdf 代码地址: https://github.com/taoxugit/AttnGAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和
Text to image论文精读 AttnGAN: Fine-Grained TexttoImage Generation with Attention(带有注意的生成对抗网络细化文本到图像生成)
|
机器学习/深度学习 编解码 人工智能
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
CogView是清华大学和阿里巴巴达摩院共同研究开发的一款用Transformer来控制文本生成图像的模型。该论文已被NIPS(Conference and Workshop on Neural Information Processing Systems,计算机人工智能领域A类会议)录用,文章发表于2021年10月。 论文地址:https://arxiv.org/pdf/2105.13290v3.pdf 代码地址:https://github.com/THUDM/CogView 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读CogView: Mastering Text-to-Image Generation via Transformers(通过Transformer控制文本生成图像)
|
机器学习/深度学习 人工智能 自然语言处理
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型
DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用,文章最初发表于2020年8月,最后v3版本修订于22年3月 。 论文地址:https://arxiv.org/abs/2008.05865 代码地址:https://github.com/tobran/DF-GAN 本博客是精读这篇论文的报告,包含一些个人理解、知识拓展和总结。
Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型