评价方式
客观评价
• 使用Inception Score
• 在COCO数据集上,直接使用预训练的
Inception模型
• 对于CUB和Oxford-102,使用finetune后的Inception模型
主观评价
• 从COCO的验证集中随机选择4k个文本描述
• 从CUB和Oxford-102的测试集中每个类别随机选择50个文本描述
• 对于每个描述,使用模型生成5个图像
• 在相同的文本描述下,10个评测者对不同模型输出的结果进行排名
模型对比
模型比较
• 对于CUB、Oxford-102和COCO三个数据集,StackGAN在客观和主观评价上都取得了最佳结果
• GAN-INT-CLS只能生成64*64分辨率的图像,缺乏图像细节,得分较低
• GAWWN虽然可以取得更高的得分,但需要使用额外的输入信息,否则无法取得任何有意义的输出,并且得分仍然低于StackGAN
• 阶段1的GAN能够绘制对象的粗略形状和颜色,但一般模糊不清,缺少细节并带有各种缺陷,特别是对于前景目标
• 阶段2的GAN会在阶段1的基础上进一步补充细节,并且在阶段1没能绘制出合理的形状时,仍然能生成合理的对象
• 使用阶段2的判别器来提取生成图像和真实图像的特征,以寻找离生成图像最接近的真实图像,结果表明,生成的结果并不是简单的复制真实图像
论文总结
• 提出了堆叠的GAN网络,结合条件增强方法,能够生成照片级的图像
• 其中阶段1的GAN网络根据给定的文本描述,来生成颜色和形状基本满足要求的草图
• 阶段2的GAN网络,能够纠正阶段1结果的缺陷,并增加更多细节
• 一系列实验显示,与现有的文本到图像方法相比,StackGAN能生成具有更高分辨率更多细节和多样性的目标图像
论文总结
• 提出了堆叠的GAN网络,结合条件增强方法,能够生成照片级的图像
• 其中阶段1的GAN网络根据给定的文本描述,来生成颜色和形状基本满足要求的草图
• 阶段2的GAN网络,能够纠正阶段1结果的缺陷,并增加更多细节
• 一系列实验显示,与现有的文本到图像方法相比,StackGAN能生成具有更高分辨率更多细节和多样性的目标图像