学习——Anycost Gan 风格迁移

简介: 学习——Anycost Gan 风格迁移

1. 背景


  生成对抗式网络在图像的风格迁移,换脸,图像生成等任务中取得了很好 的效果,但是因为其计算量大,存储空间大,很难应用到移动设备。


生成对抗网络(GANs) 是一种包含两个网络的深度神经网络结构,将一个网 络与另一个网络相互对立。一个被称为生成器的神经网络生成新的数据实例, 相对的,另一个被称为判别器的东西去评估他们的真实性;也就是说,判别器 决定每一个它检验的数据实例是否属于真实的训练数据集。

image.png



2. 概述


  现代渲染软件比如 Ae,Pr 常常可以使用多种分辨率进行渲染预览,本项 目便是受上述启发,提出了 Anycost GAN 用于交互式自然图像编辑,它利用了 生成对抗网络(GAN)深度学习模型的逼真的图像合成和编辑的优势,并改进了 大规模生成器所带来的计算时间成本问题。


传统 GAN 在边界设备上执行简单的 编辑需要耗费数秒的时间,会带来不好的用户交互体验。 本项目首次将 Preview 应用到了基于 GAN 的图像编辑任务, 通过训练 An ycost GAN 以支持弹性的分辨率和通道,从而以多种速度更快地生成图像。


通 过使用基于采样的多分辨率训练、自适应通道训练和生成器条件判别器,可以 在各种配置下评估 Anycost Generator,并且,与单独训练的模型相比,它能 获得更好的图像质量。

image.png

特点: 低成本生成器用于在图像编辑期间快速响应预览,全成本生成器用于渲染 高质量的最终输出。优点: 在各种成本预算(最多 10 倍计算减少)下执行 适应广泛的硬件和延迟要求 交互式图像编辑



3. 目标及方法:


  训练一个可以在各种计算环境下执行的生成器,同时输出一致质量的视觉呈现;学习一个 Anycost 生成器 多分辨率训练 通过实施多尺度训练目标来实现较低分辨率的输出,我们的生成器在每个 块 g k之后逐渐 产生更高分辨率的输出:


            x=G(w)=gK。gK−1。⋯。gk。⋯。g2og1(w)

--k:网络块的总数


  基于采样的训练目标 项目提出了一个基于采样的训练目标,其中在每次迭代中对生成器 G 和鉴 别器 D 都对单个分辨率进行采样和训练。 如图 c 所示,当 采样较低的分辨率(例如,128×128),不执行半透明部 分。 项目使用 G 的中间输出来获得较低的分辨率。


它通过一个 fromRGB 卷 积“读取”层以增加通道,然后馈送到 D 的中间层


image.png

多分辨率训练目标制定为: Cmuli−ms=Ex,k[logD(xk)]+Ew,k[log(1−D(Gk(w)))]


  自适应通道训练 为了让生成器能够以不同的成本运行,项目将训练生成器以支持可变通道。 对于自适应通道训练,允许每层使用不同的通道数乘数(统一比率,用于所有 层或每层灵活比率)。


对于每次训练迭代,使用随机采样通道乘数配置并更新相 应的权重子集(图 3c 中的黄色部分)。


为了采样过程中保留最“重要”的通道, 以尽量减少任何退化,为此,项目使用前一阶段的多分辨率生成器来初始化模 型,并根据内核的大小从最高到最低对卷积层的通道进行排序。训练中总是根 据初始排序对最重要的 αc 进行采样,其中 α ∈ [0.25, 0.5, 0.75, 1] 并 且 c 是层中的通道数。


  自适应通道训练目标写成:Cada−ch=Ex,k[log21D(xk)]+Ew,k,c[log(1−D(GCk(w)))]

C:每一层的通道配置


为保证不同子网落的输出一致,在以上基础上添加一致性损失:


Ctotal=Cada−ch+Ew,k,c[e(GCk(w),G(w))] -- :C 预先定义的距离度量


  生成器条件判别器


  项目采用基于学习的方法来实施条件反射。首先使用单热编码对 g_arch 中 的通道配置进行编码,它通过一个全连接层形成每通道调制。在传递到下一层 之前,特征图使用条件权重和偏差进行调制。对于真实图像,将随机绘制一个 g_arch 向量。


为了稳定训练,项目只将 G-conditioned 调制单元应用于判别器 的最后两个块。


image.png


4. 实验对象及结果


  对象:FFHQ (分辨率 1024)和 LSUN 汽车数据集(分辨率 512)


  分析:FID-70k on FFHQ of different multi-resolution training techniques.

image.png

与单分辨率训练相比,我们基于采样的技术可以训练一个产生具有更高图 像质量(由 FID [30] 测量)的多个分辨率输出的模型。 模型使用半通道 (Co nfig-E) 进行训练,以实现更快的消融


  FIDs on FFHQ at different resolutions and channels.

image.png

 条件鉴别器在不同的通道宽度和分辨率下提供最佳 FID。 该模型基于 Con fig-E 以实现更快的消融。

image.png


image.png

相关文章
|
10月前
|
数据可视化 PyTorch 算法框架/工具
使用PyTorch搭建VGG模型进行图像风格迁移实战(附源码和数据集)
使用PyTorch搭建VGG模型进行图像风格迁移实战(附源码和数据集)
776 1
|
8天前
|
机器学习/深度学习 编解码 算法
《深度剖析:生成对抗网络如何实现图像风格的细腻逼真迁移》
生成对抗网络(GAN)在图像风格迁移中展现出巨大潜力。GAN由生成器和判别器组成,通过对抗训练生成逼真图像。相比传统方法,GAN能自动学习深层特征,生成多样化、细腻的风格,并实现高效处理。关键技术如多尺度训练、注意力机制及损失函数优化进一步提升了效果。GAN已广泛应用于艺术创作、游戏开发和影视制作等领域,未来有望带来更多创新应用。
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
NeurIPS 2024:无需训练,一个框架搞定开放式目标检测、实例分割
在NeurIPS 2024会议上,论文提出了一种名为VL-SAM的框架,旨在解决开放式目标检测和实例分割任务。该框架结合了视觉语言模型(VLM)和Segment-Anything模型(SAM),利用注意力图作为提示,在无需额外训练的情况下实现未知物体的检测与分割。实验结果显示,VL-SAM在长尾实例分割数据集(LVIS)和角落情况目标检测数据集(CODA)上均表现出色,展示了其在现实世界应用中的潜力。然而,注意力图质量和计算复杂性仍是潜在挑战。
76 19
|
3月前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
357 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
8月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:图像风格迁移与生成
【7月更文挑战第13天】 使用Python实现深度学习模型:图像风格迁移与生成
98 2
图像风格迁移
图像风格迁移
134 0
|
机器学习/深度学习 编解码 人工智能
YOLO虚幻合成数据生成器
UnrealSynth 基于 UE5 虚幻引擎开发,目前支持 YOLO 系列模型合成数据的生成。
214 0
|
机器学习/深度学习 算法 PyTorch
计算机视觉PyTorch实现风格迁移
计算机视觉PyTorch实现风格迁移
175 1
|
机器学习/深度学习 存储 并行计算
使用PyTorch构建GAN生成对抗网络源码(详细步骤讲解+注释版)02 人脸识别 上
此项目使用的是著名的celebA(CelebFaces Attribute)数据集。其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记,数据由香港中文大学开放提供(不包含商业用途的使用)。
|
机器学习/深度学习 TensorFlow 算法框架/工具
深度学习与生成对抗网络:图像合成和风格迁移
深度学习和生成对抗网络(GAN)在计算机视觉领域中取得了重大突破。本文将介绍如何使用GAN进行图像合成和风格迁移,通过训练生成器和判别器网络,实现从随机噪声生成逼真图像和将图像转换为不同风格的图像。我们将探讨GAN的工作原理、网络架构和训练过程,并提供实例代码,帮助读者快速上手实现图像合成和风格迁移。
551 0