Text to image论文精读DF-GAN：A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型

2022-08-23 815

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用，文章最初发表于2020年8月，最后v3版本修订于22年3月。论文地址：https://arxiv.org/abs/2008.05865代码地址：https://github.com/tobran/DF-GAN本博客是精读这篇论文的报告，包含一些个人理解、知识拓展和总结。

@TOC

DF-GAN是南京邮电大学、苏黎世联邦理工学院、武汉大学等学者共同研究开发的一款简单且有效的文本生成图像模型。该论文已被CVPR 2022 Oral录用，文章最初发表于2020年8月，最后v3版本修订于22年3月。

论文地址：https://arxiv.org/abs/2008.05865

代码地址：https://github.com/tobran/DF-GAN

本博客是精读这篇论文的报告，包含一些个人理解、知识拓展和总结。

一、原文摘要

从文本描述中合成高质量的真实图像是一项具有挑战性的任务。现有的文本到图像生成对抗性网络通常采用堆叠式架构作为主干，但仍然存在三个缺陷。首先，堆叠结构引入了不同图像尺度的生成器之间的纠缠。第二，现有研究倾向于在训练中修复额外的网络，以实现文本-图像语义一致性，但是这限制了这些网络的监控能力。第三，以往研究中广泛采用的基于跨模态注意的文本图像融合由于计算量大而局限于几种特殊的图像尺度。为此，我们提出了一种更简单但更有效的深度融合生成性对抗网络（DF-GAN）。具体来说，我们提出：（i）一种新的单级文本到图像主干，它直接合成高分辨率图像，而不同生成器之间没有纠缠；（ii）一种由匹配软件梯度惩罚和单向输出组成的新的目标感知鉴别器，它在不引入额外网络的情况下增强了文本图像的语义一致性，（iii）一种新的深文本图像融合块，它深化了融合过程，使文本和视觉特征完全融合。与目前最先进的方法相比，我们提出的DFGAN在合成真实感和文本匹配图像方面更简单但效率更高，并且在广泛使用的数据集上实现了更好的性能

二、为什么提出DF-GAN？

文本到图像合成的两个主要挑战是生成图像的真实性，以及给定文本和生成图像之间的语义一致性。

为了解决GAN模型的不稳定性，以往的模型都采用堆叠结构（一般三层）作为主干，然后使用DAMSM（AttnGAN）、循环结构（MirrorGAN）、孪生结构（SD-GAN）这些额外的网络保持文本图像的语义一致性。

但是仍存在三个问题：

堆叠结构引发了不同生成器之间的纠缠，使得最终优化的图像看起来像是模糊形状和一些细节的简单组合。
现有研究通常在训练期间不断调整额外的网络，使其更被生成器愚弄，从而合成对抗性特征，但是这会削弱它们对语义一致性的监督能力。（换句话说就是，现有研究通常会牺牲额外网络的文本对齐部分性能去达到图像合成效果）
由于计算量大，跨模态注意力（比如AttnGAN的注意力机制）往往只能在64×64或者128×128的尺度上应用，限制了文本与图像融合的有效性。

三、DF-GAN

3.1、模型结构

在这里插入图片描述

模型抛弃了以往的堆叠结构，只使用一个生成器、一个鉴别器、一个预训练过的文本编码器。

首先，从生成器开始看，生成器有两个输入：文本编码器（LSTM，用的是AttnGAN的那套）编码过后的sentence vector和从正态分布中采用的随机噪声。首先将噪声送入一个全连接层并重塑成需要的尺寸，然后经过一系列UPBlock块生成图像特征，UPBlock块包括：上采样层、残差块和DF-Block（DF-Block用于融合文本和图像特征），最后卷积层将图像特征转换为图像。

然后，分析鉴别器，鉴别器使用一系列DownBlock将图像转换为图像特征，然后把图像特征与sentence vector相连接，然后经过OneWay Output块计算对抗损失（包括视觉真实性和语义一致性）

在计算损失时，DF-GAN使用了 hinge loss：