GANs是如何创造出高分辨率的图像的

简介: GANs是如何创造出高分辨率的图像的

本文主要介绍DCGAN的适应渐进式增长创建高分辨率图像的思路

深度卷积生成对抗网络是2020年最精致的神经网络体系结构。生成模型可以追溯到60年代,但是Ian Goodfellow在2014年创造的GAN,使得生成模型跟那个广泛的使用,这对于深度学习的未来有着前所未有的价值。

GAN知识要点

生成器根据噪声向量重建样本,该样本应与训练分布不可区分

生成器是主要的目标,一旦我们对它的结果满意,就可以丢弃鉴别器

由于这两个神经网络都是可微的,我们可以使用它们的梯度来引导它们朝着正确的方向

主要思路

生成器和鉴别器都以4×4像素开始。顺便说一下,这是由Ian Goodfellow提出的。

渐进增长要求在训练过程中同时扩展生成器和鉴别器的能力。层的增量添加允许模型有效地学习粗层次的细节,并在之后为双方学习更精细的细节。

这种增量性质允许训练首先发现图像分布的大规模结构,然后将注意力转移到越来越精细的尺度细节上,而不必同时学习所有尺度。

Progressive Growing of GANs for Improved Quality, Stability, and Variation, 2017.

这种增量模式利用了一种称为跳跃连接的东西来连接新的块到鉴别器的输入。此外,一个加权参数alpha控制新块的影响。Alpha从0开始,随着训练的进行线性增加到1。

640.png

对生成器的更改

生成器必须添加一个新的卷积层块,输出一个32x32的图像,在使用最近邻插值之前,将其与16x16层的输出连接起来。

许多GAN发生器使用转置的卷积层对图像进行上采样。

对鉴别器的更改

鉴别器必须通过添加新的卷积块和跳过连接来适应支持32x32的图像大小。然后输出图像使用平均池下行采样,以便它可以作为现有的16x16块的输入。

同样,大多数GANs使用步长2来获得相同的输出格式。

640.png

小批量的鉴别

与批处理归一化类似,研究人员已经提出了一种在两个网络中实现层归一化的方法。这被称为小批量鉴别。由于GAN倾向于仅捕获训练数据中发现的变异的一个子集,因此此方法可以在一定程度上解决这个问题 。让我们看看这是如何做到的

  1. 首先我们计算每个小批量中每个特征的标准差。
  2. 然后我们对这些估计的总体特征进行平均,得到一个单一的值
  3. 该值连接到小批上的所有空间位置,产生一个额外的特征映射。

640.png

总结

在StyleGANs上下文中,渐进式增长是所有这些块的一个系列,这些块逐渐增长成越来越高的分辨率输出,StyleGAN生成器本质上是这样的。每一个块都将由一个上采样层和一个卷积层组成,实际上,每两个卷积层都可以学习更多。

总而言之,渐进式增长将使图像分辨率翻倍,这样随着时间的推移,你的样式师更容易学习到更高分辨率的图像。本质上,这有助于更快更稳定的训练。

有用的链接:

目录
相关文章
|
6月前
|
机器学习/深度学习 自动驾驶 机器人
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
【论文速递】BEVFormer: 通过时空变换器从多相机图像中学习BEV表示
|
机器学习/深度学习 传感器 人工智能
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。
首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)(下)
|
4月前
|
机器学习/深度学习 监控 算法
GANs在图像生成中的创新应用
【7月更文挑战第14天】GANs在图像生成中的创新应用为艺术创作、数据增强、图像修复、风格迁移等多个领域带来了革命性的变化。通过不断的研究和探索,GANs的性能和应用范围将得到进一步的提升和扩展。未来,随着技术的不断进步和创新,我们有理由相信GANs将在图像生成领域迎来更多重要的突破和进展。
|
5月前
|
人工智能 自然语言处理
高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
【6月更文挑战第24天】论文《Language Models as Text-Based World Simulators?》由多所名校和机构合作完成,探讨大型语言模型(LLMs)如GPT-4是否能胜任世界模拟器角色。新基准BYTE-SIZED32-State-Prediction用于评估其模拟文本游戏状态转换的能力。结果显示,GPT-4在某些任务上接近人类表现,但在算术、常识推理和环境动态模拟上仍有不足,表明LLMs尚无法成为可靠的全功能世界模拟器。研究指出了LLMs改进和未来研究的潜力方向。[[1](https://arxiv.org/pdf/2403.19655)]
48 1
|
6月前
|
存储 编解码 vr&ar
ICLR 2024:单张图像完成逼真的三维重建
【2月更文挑战第28天】ICLR 2024:单张图像完成逼真的三维重建
187 2
ICLR 2024:单张图像完成逼真的三维重建
|
6月前
|
传感器 机器学习/深度学习 自动驾驶
【多模态融合】CRN 多视角相机与Radar融合 实现3D检测、目标跟踪、BEV分割 ICCV2023
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。 通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。
497 1
|
6月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
77 0
极智AI | GAN应用于玻璃表面水珠样本生成
|
6月前
|
机器学习/深度学习 vr&ar
生成对抗网络(GANs)在图像生成和风格转换方面的研究进展
生成对抗网络(GANs)在图像生成和风格转换方面的研究进展
190 0
生成对抗网络(GANs)在图像生成和风格转换方面的研究进展
|
6月前
|
机器学习/深度学习 人工智能 计算机视觉
极智AI | 图像处理中对掩膜mask和ROI的理解
大家好,我是极智视界,本文介绍一下 图像处理中对掩膜 mask 和 ROI 的理解。
310 0
|
编解码 人工智能
AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”
AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”
146 0