Text to Image综述阅读（1.1）：介绍与基本原理 Adversarial Text-to-Image Synthesis: A Review（基于GAN的文本生成图像）

2022-08-23 421

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于GAN的文本生成图像，最早在2016年由Reed等人提出，最开始是Conditional GANs的扩展，仅在受限的数据集取得成果，小图像分辨率64*64。

@[TOC](Text to Image（一）介绍与基本原理 )

本系列是根据2021年的一篇论文《Adversarial Text-to-Image Synthesis: A Review》理解所写，主要在于总结和归纳基于GAN的“文本生成图像”（text to image）方向的研究情况。

论文地址：https://arxiv.org/abs/2101.09983

一、介绍

起源：基于GAN的文本生成图像，最早在2016年由Reed等人提出，最开始是Conditional GANs的扩展，仅在受限的数据集取得成果，小图像分辨率64*64。

2016到2020的发展：生成图像质量提升、所用数据集复杂性提升、生成图像的分辨率提升256*256、文本编码、损失代价函数、新的GAN架构、定量评价标准的提升。

目前的挑战：基于文本描述生成包含多个对象的复杂场景、分辨率的再次提升、重现许多方法的定量结果、评价指标不准，很难对结果进行定量比较。

思维导图

在这里插入图片描述

二、基本原理

GANs

GANs：生成对抗网络（Generative Adversarial Networks），实现方式是让两个网络相互竞争。其中一个叫做生成器网络（ Generator Network），它不断捕捉训练库中的数据，从而产生新的样本。另一个叫做判别器网络（Discriminator Network），它也根据相关数据，去判别生成器提供的数据到底是不是足够真实。

损失函数公式：

在这里插入图片描述