StarGAN - 图像到图像的翻译

简介: StarGANs用来做什么?
TB1CHdeRCzqK1RjSZFjXXblCFXa.jpg

本文为 AI 研习社编译的技术博客,原标题 :

StarGAN — Image-to-Image Translation

作者 | Pranoy Radhakrishnan

翻译 | tobepellucid         

校对 | Pita        审核 | 酱番梨       整理 | 立鱼王

原文链接:

https://towardsdatascience.com/stargan-image-to-image-translation-44d4230fbb48

TB1b18fRrvpK1RjSZFqXXcXUVXa.jpg

   StarGANs用来做什么?

通过输入来自两个不同领域的训练数据,StarGANs模型可以学习将某一个领域的图片转换成为另一个领域。

例如,把一个人的发色(属性)从黑色(属性值)转换成棕色(属性值)。

我们把领域定义为拥有相同属性值的一系列图片。黑色头发人群是一个领域,棕色头发人群则是另一个领域。

   StarGAN(星型生成式对抗网络)

TB1.lUGRmzqK1RjSZPcXXbTepXa.jpg

生成器把图像和目标领域标签作为输入,生成一张非真实的图像.(b)

生成器试图根据所给的原始领域标签,把非真实图像重构为原始图像。

这里,为了生成器能够产生与真实图像难以区分的图像且该图像可以被判别器分类为目标领域,判别器不仅要区分非真实性,而且要对一张图像作出它相应领域的分类。也就是说,生成器将最终学到可以生成对应于所给目标领域的真实图像。(d)

   判别器的目标

这里的判别器有两个任务:

它应该能够鉴别一张图像真实与否。

在位于判别器顶部的辅助分类器的帮助下,判别器也可以预测输入给它的图像的对应领域。

辅助分类器的作用是什么?

有了辅助分类器,判别器能够学习到原始图像的映射以及它在数据集中所对应的领域。当生成器产生一张指定目标领域c(比如棕色头发)的新图像时,判别器可以预测所产生的图像的领域。因此生成器会产生新图像直到判别器给出对应的目标领域c(棕色头发)的预测为止。

TB1H5JkRAPoK1RjSZKbXXX1IXXa.png

判别器的损失函数

   生成器的目标

这里的生成器有三个目标:

为了生成图像接近真实,生成器的权重会被不断调整。

为了生成图像能够被判别器鉴定为目标领域,生成器的权重会被不断调整。

生成器将根据所给原始领域标签把生成的非真实图像重构为原始图像。我们将使用单一的生成器两次,第一次把原始图像翻译成目标领域的图像,第二次把翻译图像再重构成原始图像。

TB1QRs9RjDpK1RjSZFrXXa78VXa.png

生成器的损失函数

   数据集

CelebA. 名人脸部属性(CelebA)数据集包含了202,599张明星的脸部图像,每张都被标注了40个二分类属性。雷锋网雷锋网(公众号:雷锋网)雷锋网

拉德堡德脸部数据库(RaFD)由收集自67位参与者的4,824张图像组成,每位参与者在三个不同的注视方向上做了八种脸部表情,拍摄于三个不同的角度。

   参考

StarStarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

想要继续查看该篇文章相关链接和参考文献?

点击【StarGAN-图像到图像的翻译】即可访问:

https://ai.yanxishe.com/page/TextTranslation/1611

AI入门、大数据、机器学习免费教程

35本世界顶级原本教程限时开放,这类书单由知名数据科学网站 KDnuggets 的副主编,同时也是资深的数据科学家、深度学习技术爱好者的Matthew Mayo推荐,他在机器学习和数据科学领域具有丰富的科研和从业经验。

点击链接即可获取:https://ai.yanxishe.com/page/resourceDetail/417

目录
相关文章
|
机器学习/深度学习 自然语言处理 文字识别
【计算机视觉】CLIP:连接文本和图像(关于CLIP的一些补充说明)
我们推出了一个名为CLIP的神经网络,它可以有效地从自然语言监督中学习视觉概念。CLIP可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称,类似于GPT-2和GPT-3的“零样本”功能。
|
14天前
|
人工智能 自然语言处理 网络性能优化
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。
34 2
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
|
3月前
|
机器学习/深度学习 编解码 自动驾驶
计算机视觉之图像到图像的翻译
图像到图像的翻译(Image-to-Image Translation)是指将一种图像从一种表示转换为另一种表示的过程。该任务的目标是在保证图像语义信息的前提下,将图像风格、颜色或其他视觉特征进行转换。该技术在计算机视觉领域具有广泛应用,例如图像风格迁移、图像修复、图像增强、超分辨率、语义分割等。
67 4
|
3月前
MUMU:用文本、图像引导,多模态图像生成模型
【9月更文挑战第19天】随着人工智能技术的发展,多模态模型因其能处理文本、图像、音频等多种信息而备受关注。在图像生成领域,一种名为MUMU的新模型展现出巨大潜力。MUMU可接收文本和图像提示并生成相应图像,如根据“一个<图片:男人>男人和他的<图片:狗>狗在一个<图片:卡通>动画风格中”生成图像。通过训练包含文本-图像数据集的视觉-语言编码器及扩散解码器,MUMU能实现风格转换和角色一致性等任务,并在图像编辑和合成方面展示出潜力。然而,其仍受限于复杂场景处理能力和计算资源需求。论文详情见链接:https://arxiv.org/abs/2406.18790。
44 1
|
人工智能 数据挖掘 PyTorch
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
VLE基于预训练文本和图像编码器的图像-文本多模态理解模型:支持视觉问答、图文匹配、图片分类、常识推理等
|
7月前
|
人工智能 数据可视化 vr&ar
TripoSR:一个图像到3D生成模型,你get到了嘛!
TripoSR:一个图像到3D生成模型,你get到了嘛!
117 1
|
7月前
|
机器学习/深度学习 编解码 并行计算
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
深度学习的图像超分技术综述-输入单张图像(SISR)和输入多张图像的基于参考的图像(RefSR)
319 0
|
机器学习/深度学习 计算机视觉 Python
使用OpenCV实现人脸图像卡通化
使用OpenCV实现人脸图像卡通化
|
自然语言处理 计算机视觉 C++
图像基础二(上)
图像基础二(上)
161 0
图像基础二(上)