单张图像就可以训练GAN!Adobe改良图像生成方法 | 已开源

简介: 云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 数据集太小了,无法训练GAN?试试从单个图像入手吧。 最近,来自Adobe和汉堡大学的研究人员,对这个方法做了改进,探讨了几种让GAN在单幅图像提高训练和生成能力的机制。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


数据集太小了,无法训练GAN?试试从单个图像入手吧。

最近,来自Adobe和汉堡大学的研究人员,对这个方法做了改进,探讨了几种让GAN在单幅图像提高训练和生成能力的机制。

研究人员将改进的模型称作ConSinGAN

1

那么,先来看下ConSinGAN的效果吧。

2

上图左侧是用来训练的单个图像,右侧是利用ConSinGAN训练后生成的复杂全局结构。

可以看出效果还是比较逼真。

当然,ConSinGAN还可以用来处理许多其他任务,例如图像超分辨率( image super-resolution)、图像动画(image animation),以及图像去雾(image dehazing)。

下面两张就是它在图像协调(image harmonization)和图像编辑(image editing)上的效果。

3

4

ConSinGAN是怎么做到的呢?

训练架构优化:并行的SinGAN

首先,我们先来看下SinGAN的训练过程。

SinGAN在图像中训练几个单独的生成网络,下图便是第一个生成器,也是唯一从随机噪声生成图像的无条件生成器。

5

△ 在SinGAN中训练的第一个生成器

这里的判别器从来不将图像看做一个整体,通过这种方法,它就可以知道“真实的”图像补丁(patch)是什么样子。

这样,生成器就可以通过生成,在全局来看不同,但仅从补丁来看却相似的图像,来达到“欺诈”的目的。

在更高分辨率上工作的生成器,将前一个生成器生成的图像作为输入,在此基础上生成比当前还要高分辨率的图像。

所有的生成器都是单独训练的,这意味着在训练当前生成器时,所有以前的生成器的权重都保持不变。

这一过程如下图所示。

6

而在Adobe与汉堡大学的研究人员发现,在给定的时间内仅能训练一个生成器,并将图像(而不是特征图)从一个生成器传输到下一个生成器,这就限制了生成器之间的交互。

因此,他们对生成器进行了端到端的训练,也就是说,在给定时间内训练多个生成器,每个生成器将前一个生成器生成的特征(而不是图像)作为输入。

这也就是ConSinGAN名字的由来——并行的SinGAN,过程如下图所示。

7

然而,采取这样的措施又会面临一个问题,也就是过拟合。这意味着最终的模型不会生成任何“新”图像,而是只生成训练图像。

为了防止这种现象发生,研究人员采取了2个措施:

  • 在任意给定时间内,只训练一部分生成器;
  • 对不同的生成器采用不同的学习率(learning rate)。

下图就展示了使用这两种方法实现的模型。默认情况下,最多同时训练3个生成器,并对较低的生成器,分别将学习率调至1/10和1/100。

_2

在这个过程中,有一个有趣的现象。

如果对较低的生成器采用较高的学习率,那么生成的图像质量会高些,但是差异性较弱。

相反,如果对较低的生成器采用较小的学习率,那么生成图像的差异性会丰富一些。如下图所示。

3

代码已开源

ConSinGAN的代码已经在GitHub上开源。

老规矩,先介绍一下运行所需要的环境:Python 3.5;Pytorch 1.1.0。

安装也非常简单:

pip install -r requirements.txt

若要使用论文中的默认参数训练模型:

python main_train.py --gpu 0 --train_mode generation --input_name Images/Generation/angkorwat.jpg

在英伟达GeForce GTX 1080Ti上训练一个模型大约需要20-25分钟。

不同的学习率和训练阶段数量,会影响实验的结果,研究人员推荐二者的默认值分别是0.1和6。

当然也可以修改学习率:

python main_train.py --gpu 0 --train_mode generation --input_name Images/Generation/colusseum.jpg --lr_scale 0.5

修改训练阶段的数量:

python main_train.py --gpu 0 --train_mode generation --input_name Images/Generation/colusseum.jpg --train_stages 7

当然,模型也可以用来处理“图像协调”和“图像编辑”等任务,详情可参阅GitHub。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-03-30
本文作者:十三
本文来自:“量子位公众号”,了解相关信息可以关注“公众号 QbitAI”

相关文章
|
7月前
|
人工智能 文字识别 安全
关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享
>10月14日第六届[中国模式识别与计算机视觉大会](https://www.prcv2023.cn/2023prcv)在厦门举办。PRCV 2023由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办,厦门大学承办,是国内顶级的模式识别和计算机视觉领域学术盛会,CCF推荐会议(C类)。 本届会议主题为“相约鹭岛,启智未来”。会议旨在汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行,共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。 PRCV2023共设5个大
103 0
|
5天前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
44 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
5天前
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
29 0
|
5天前
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
90 1
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
机器学习/深度学习 数据可视化 算法
基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
280 0
|
12月前
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
162 0
|
机器学习/深度学习 编解码 数据可视化
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
154 0
|
机器学习/深度学习 编解码 达摩院
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。 扩散模型DiffusionModel在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!
25748 3
【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!
|
机器学习/深度学习 计算机视觉
基于VGG19迁移学习实现图像风格迁移
基于VGG19迁移学习实现图像风格迁移
445 0
基于VGG19迁移学习实现图像风格迁移