GANs是如何创造出高分辨率的图像的

简介: GANs是如何创造出高分辨率的图像的

本文主要介绍DCGAN的适应渐进式增长创建高分辨率图像的思路

深度卷积生成对抗网络是2020年最精致的神经网络体系结构。生成模型可以追溯到60年代,但是Ian Goodfellow在2014年创造的GAN,使得生成模型跟那个广泛的使用,这对于深度学习的未来有着前所未有的价值。

GAN知识要点

生成器根据噪声向量重建样本,该样本应与训练分布不可区分

生成器是主要的目标,一旦我们对它的结果满意,就可以丢弃鉴别器

由于这两个神经网络都是可微的,我们可以使用它们的梯度来引导它们朝着正确的方向

主要思路

生成器和鉴别器都以4×4像素开始。顺便说一下,这是由Ian Goodfellow提出的。

渐进增长要求在训练过程中同时扩展生成器和鉴别器的能力。层的增量添加允许模型有效地学习粗层次的细节,并在之后为双方学习更精细的细节。

这种增量性质允许训练首先发现图像分布的大规模结构,然后将注意力转移到越来越精细的尺度细节上,而不必同时学习所有尺度。

Progressive Growing of GANs for Improved Quality, Stability, and Variation, 2017.

这种增量模式利用了一种称为跳跃连接的东西来连接新的块到鉴别器的输入。此外,一个加权参数alpha控制新块的影响。Alpha从0开始,随着训练的进行线性增加到1。

640.png

对生成器的更改

生成器必须添加一个新的卷积层块,输出一个32x32的图像,在使用最近邻插值之前,将其与16x16层的输出连接起来。

许多GAN发生器使用转置的卷积层对图像进行上采样。

对鉴别器的更改

鉴别器必须通过添加新的卷积块和跳过连接来适应支持32x32的图像大小。然后输出图像使用平均池下行采样,以便它可以作为现有的16x16块的输入。

同样,大多数GANs使用步长2来获得相同的输出格式。

640.png

小批量的鉴别

与批处理归一化类似,研究人员已经提出了一种在两个网络中实现层归一化的方法。这被称为小批量鉴别。由于GAN倾向于仅捕获训练数据中发现的变异的一个子集,因此此方法可以在一定程度上解决这个问题 。让我们看看这是如何做到的

  1. 首先我们计算每个小批量中每个特征的标准差。
  2. 然后我们对这些估计的总体特征进行平均,得到一个单一的值
  3. 该值连接到小批上的所有空间位置,产生一个额外的特征映射。

640.png

总结

在StyleGANs上下文中,渐进式增长是所有这些块的一个系列,这些块逐渐增长成越来越高的分辨率输出,StyleGAN生成器本质上是这样的。每一个块都将由一个上采样层和一个卷积层组成,实际上,每两个卷积层都可以学习更多。

总而言之,渐进式增长将使图像分辨率翻倍,这样随着时间的推移,你的样式师更容易学习到更高分辨率的图像。本质上,这有助于更快更稳定的训练。

有用的链接:

目录
相关文章
|
10月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
机器学习/深度学习 数据采集 算法
基于 UNet 的农业图像的分割| 学习笔记
快速学习基于 UNet 的农业图像的分割。
基于 UNet 的农业图像的分割| 学习笔记
|
11天前
|
人工智能 自然语言处理 数据可视化
撞墙还是新起点?自回归模型在图像领域展现出Scaling潜力
在人工智能生成内容(AIGC)领域,文本和图像生成是研究重点。文本生成常用自回归语言模型,而图像生成依赖扩散模型。随着大型语言模型的成功,研究人员开始探索自回归模型在图像生成中的应用。通过对比VQGAN和BAE标记器、评估自回归与掩码语言模型的表现,并优化词汇表设计和采样策略,提出了ELM模型,在ImageNet上取得优异表现。未来可进一步优化训练目标和结合其他建模方法。 论文链接:https://arxiv.org/pdf/2410.16257
26 12
|
2月前
|
人工智能 索引
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。
180 19
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
|
4月前
|
机器学习/深度学习 存储 编解码
什么是图像噪声?是如何产生的?图像去噪技术都有哪些?
图像噪声是在图像采集、传输和处理过程中产生的像素值异常现象,主要由光子计数统计、电子偏移和放大器噪声等因素引起。噪声影响图像质量,降低信噪比,使特征难以识别。图像去噪技术包括传统方法(如空间域滤波、频域滤波、图像压缩和超糅合)和基于深度学习的方法(如卷积神经网络、残差网络和生成对抗网络),旨在有效去除噪声,提高图像质量。
|
8月前
|
机器学习/深度学习 监控 算法
GANs在图像生成中的创新应用
【7月更文挑战第14天】GANs在图像生成中的创新应用为艺术创作、数据增强、图像修复、风格迁移等多个领域带来了革命性的变化。通过不断的研究和探索,GANs的性能和应用范围将得到进一步的提升和扩展。未来,随着技术的不断进步和创新,我们有理由相信GANs将在图像生成领域迎来更多重要的突破和进展。
|
10月前
|
存储 编解码 vr&ar
ICLR 2024:单张图像完成逼真的三维重建
【2月更文挑战第28天】ICLR 2024:单张图像完成逼真的三维重建
290 2
ICLR 2024:单张图像完成逼真的三维重建
|
10月前
|
测试技术 计算机视觉
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
【2月更文挑战第28天】ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
220 1
ICLR 2024 Spotlight:自蒸馏激发CLIP模型的检测分割能力
|
10月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
102 0
极智AI | GAN应用于玻璃表面水珠样本生成