GAN Step By Step -- Step2 GAN的详细介绍及其应用(上)

简介: GAN Step By Step -- Step2 GAN的详细介绍及其应用

dc199d960b704e0c9331376e069be96e.png



Step2 GAN的详细介绍及其应用


GAN基本框架


上一次已经介绍了一下GAN的基本框架和基本公式,如图所示


87ade1b79a03c3a165b5957613abeeba.png



10大典型的GAN算法


GAN 算法有数百种之多,大家对于 GAN 的研究呈指数级的上涨,目前每个月都有数百篇论坛是关于对抗网络的。


下图是2014-2018每个月关于 GAN 的论文发表数量:

8b5032da22ee2d628ae2e24160037bc2.png


如果你对 GANs 算法感兴趣,可以在 「GANs动物园」里查看几乎所有的算法。我们为大家从众多算法中挑选了10个比较有代表性的算法,技术人员可以看看他的论文和代码。

f4c3995b62bf48118af9291bb68c9210.png


接下来,我也会一一学习这些GAN的知识,一起遍历这个GAN的地图

image.png


上面内容整理自《Generative Adversarial Networks – The Story So Far》原文中对算法有一些粗略的说明,感兴趣的可以看看。


GAN的优缺点


3个优势


  1. 能更好建模数据分布(图像更锐利、清晰)
  2. 理论上,GANs 能训练任何一种生成器网络。其他的框架需要生成器网络有一些特定的函数形式,比如输出层是高斯的。
  3. 无需利用马尔科夫链反复采样,无需在学习过程中进行推断,没有复杂的变分下界,避开近似计算棘手的概率的难题。


2个缺陷


  1. 难训练,不稳定。生成器和判别器之间需要很好的同步,但是在实际训练中很容易D收敛,G发散。D/G 的训练需要精心的设计。
  2. 模式缺失(Mode Collapse)问题。GANs的学习过程可能出现模式缺失,生成器开始退化,总是生成同样的样本点,无法继续学习。


Application


姿势引导人形像生成


通过姿势的附加输入,我们可以将图像转换为不同的姿势。例如,右上角图像是基础姿势,右下角是生成的图像。



bd4f3c0f0d6bf5aeb3f6dd56bb3edc02.png


下面的优化结果列是生成的图像。


9f27e9d4f8b397bcdcb61240b185aac8.png


该设计由二级图像发生器和鉴频器组成。生成器使用元数据(姿势)和原始图像重建图像。判别器使用原始图像作为CGAN设计标签输入的一部分。




73628d80b26c50cc01997af5a13416c0.png


CycleGAN


跨域名转让将很可能成为第一批商业应用。GANs将图像从一个领域(如真实的风景)转换为另一个领域(莫奈绘画或梵高)。


7d1330c866a65a2fa0c8e4adf9233150.png


例如,它可以在斑马和马之间转换图片。


57f78f4578386714815cd5b7f8cb662e.png


Cyclegan构建了两个网络G和F来构建从一个域到另一个域以及反向的图像。它使用判别器d来批评生成的图像有多好。例如,G将真实图像转换为梵高风格的绘画,并且DY用于区分图像是真实的还是生成的。

域A到域B:------------------------>


5afa83b6dc010f35c9e919a8c32eedc8.png


我们在反向域B域A中重复该过程:


8c038e991f1f1bba6282cf610dda9c0b.png

PixelDTGAN


根据名人图片推荐商品已经成为时尚博客和电子商务的热门话题。Pixeldtgan的作用就是从图像中创建服装图像和样式。


07e43babf08d4f9cd9d33f2daf913c84.png


328b761064e33428ad50da4ea7f5b024.png


4effa1f26a3786178631ace651e5c5f3.png



超分辨率


从低分辨率创建超分辨率图像。这是GAN显示出非常令人印象深刻的结果,也是具有直接商业可能性的一个领域。


91c46ad04f6a43164e5cee793e658d7a.png


与许多GAN的设计类似,它是由多层卷积层、批标准化、高级relu和跳跃连接组成。



870b79f0a3a91f3db09af6d8a6b2aab7.png


PGGAN


Progressive GAN可能是第一个展示商业化图像质量的GAN之一。以下是由GAN创建的1024×1024名人形象。



16ba10415bbfcf34bd375997a786d46d.png


它采用分而治之的策略,使训练更加可行。卷积层的一次又一次训练构建出2倍分辨率的图像。


a85061635f5afd504958a36559d6ae38.png


在9个阶段中,生成1024×1024图像。


0765799d0587a696de0e8afb62716402.png


高分辨率图像合成


需要注意的是这并非图像分割,而是从语义图上生成图像。由于采集样本非常昂贵,我们采用生成的数据来补充培训数据集,以降低开发成本。在训练自动驾驶汽车时可以自动生成视频,而不是看到它们在附近巡航,这就为我们的生活带来了便捷。

网络设计:


image.png

5a7462bf9d277ebce60bc6ef2bdd7704.png



文本到图像(StackGAN


文本到图像是域转移GAN的早期应用之一。比如,我们输入一个句子就可以生成多个符合描述的图像。


1b4ac817d241f0c4adf701d7dbd6eaff.png

8da4cc950571b9128f95948b214e9095.png


相关文章
|
存储 编解码 调度
剖析ffmpeg视频解码播放:时间戳的处理
剖析ffmpeg视频解码播放:时间戳的处理
1176 0
|
存储 C语言
【C语言】深度剖析数据在内存中的存储
【C语言】深度剖析数据在内存中的存储
|
JSON 数据格式
糊涂工具类(hutool)post请求设置body参数为json数据
糊涂工具类(hutool)post请求设置body参数为json数据
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp微信小程序的常规应急物资管理系统的详细设计和实现
基于SpringBoot+Vue+uniapp微信小程序的常规应急物资管理系统的详细设计和实现
144 1
|
算法 计算机视觉 异构计算
基于FPGA的图像RGB转HLS实现,包含testbench和MATLAB辅助验证程序
基于FPGA的图像RGB转HLS实现,包含testbench和MATLAB辅助验证程序
|
Windows
windows下未知原因导致按键全部变成了快捷键(按D返回桌面)解决办法
windows下未知原因导致按键全部变成了快捷键(按D返回桌面)解决办法
1418 0
|
编解码 Cloud Native 数据可视化
阿里云研究员叔同:Serverless 正当时!
Serverless 将开发人员从繁重的手动资源管理和性能优化中解放出来,就像数十年前汇编语言演变到高级语言的过程一样,云计算生产力再一次发生变革。Serverless 的核心价值是什么?阿里云发布了哪些 Serverless 生态产品,各有什么特别之处?阿里云函数计算的表现如何?阿里云研究员叔同将通过本文分享阿里布局 Serverless 的历程和决心。
9301 0
阿里云研究员叔同:Serverless 正当时!
|
算法 数据安全/隐私保护 安全
一文让你轻松掌握 HTTPS
HTTPS 称为安全的超文本传输协议,在 HTTP 与 TCP 之间增加了一层安全链路 (SSL/TLS)。(SSL 是 TLS 的前身,在 IETF 将 SSL 标准化后就改名叫 TLS,SSL 的最高版本为 3.0,之后版本为 TLS1.0,TLS1.1,TLS1.2.....)
1151 0
|
存储 运维 Unix
IT运维的五大基础知识
IT运维的五大基础知识 | 浏览:331 | 更新:2014-09-25 11:36 IT运维对于很多企业都很重要,接下来运维的一些基础知识天天客服IT运维总监龙少文,就给大家介绍下IT运维的基础知识: IT运维管理基础知识一、微软系统 关于Windows的熟识是最基本的。
1614 0