通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型-阿里云开发者社区

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

2017-08-01 2151

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

雷锋网(公众号：雷锋网)按：本文作者何之源，复旦大学计算机科学硕士在读，研究人工智能计算机视觉方向。本文由雷锋网独家首发。

一、一个神奇的网站

前些日子在Qiita上看到了一篇神奇的帖子：Girl Friend Factory 機械学習で彼女を創る Qiita。帖子里面提到利用GAN，通过文字描述来生成二次元图像。这篇文章的作者还把他的想法搭建成了一个网站（网站地址：Girl Friend Factory），大概长下面这样：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

我之前也写过一篇文章介绍了如何利用GAN生成简单的二次元人物头像，但那只是完全的随机生成，你无法控制生成出的人物的属性。但这篇Qiita的帖子不一样，我们可以指定生成人物的属性，如发色、眼睛的颜色、发型，甚至是服装、装饰物，从而生成具有指定属性的图像。

这个网站提供的属性非常多，我简单地把它们翻译了一下：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

我会在后面详细地介绍它的实现原理，在那之前，我们先来试着玩一玩这个网站。

进入网站后，首先要等待模型加载（注意：这个网站国内可能出现连接不上的问题，需要自行解决。另外网站大概会下载70M左右的模型，需要耐心等待。）加载好后，点击上方的“無限ガチャ”（無限ガチャ实际上是“无限扭蛋器”的意思），就可以进行生成了。

先生成一个金发+碧眼，多次点击生成按钮可以生成多个，效果还可以：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

再生成黑发＋碧眼试试：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

右击图像可以“注册为喜欢”，实际上就是一个收藏的功能。收藏之后可以"生成一覧"中找到。

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

另外，收藏图片后，点击上方的"属性モーフィング"还可以对属性做微调，如这里我可以更改发色：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

点击上方的"合成"按钮，你甚至可以把两个人物合成同一个！如下图所示：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

二、基本原理

上面的网站的原理是什么呢？原作者也提到了，其实就源于Generative Adversarial Text to Image Synthesis这篇论文。接下来就一起看一下它是怎么做的。

我们的目标实际上是通过“文字”生成“图像”。为此我们需要解决以下两个问题：

其中，第一个问题是用了之前一篇论文中的技术，这里就不细讲了。假设文字描述为t，我们可以通过一个函数φ将其转换为一个向量φ(t)。

第二个问题，如何利用向量φ(t)生成合适的图像？这就是GAN的工作，文中GAN的结构如下图所示：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型

对比原始的GAN结构，这里对生成网络G和判别网络D的输入部分做了更改：

对于图像生成网络G，原来是接收一个无意义的噪声z，输出一个图像G(z)。而这里不仅接收噪声z，还接收文字描述向量φ(t)，用这两部分共同生成一个图像G(z, φ(t))。
对于判别网络D，原来是接收图像x, 输出打分D(x)，现在不仅接收图像x，还接收文字描述φ(t)。最后输出打分D(x, φ(t))

这实际上就是一个条件GAN(conditional GAN)。只需要简单地更改一下原始GAN的结构就可以完成。到了这里，就可以直接训练了，也可以完成我们文字 >图片的生成任务。但是直接训练的生成图片的质量不是很好，对此作者又提出了两点改进。

三、改进一：GANCLS（针对判别器Ｄ的改进）

为什么直接训练的效果不好？仔细想一下，我们会发现，在原始的GAN中，判别网络D只需要做一件事情，即判断生成的图片是否正常。但在这里，判别网络D需要做两件事情，一是和原始的GAN一样，判断图片是否正常，二是判断生成的图片是否符合文字描述。

因此，我们对原来的训练步骤做一些改进。不仅给D提供生成的图片和真实的图片两类样本，还给D提供真实图片 + 虚假描述的样本，强化Ｄ的训练效果，强迫D判断生成的图片是否真的符合文字描述。具体的训练步骤如下：

通过文字描述来生成二次元妹子？聊聊conditional GAN与 txt2img模型