英伟达、UC伯克利联合研究:条件GAN高分辨率图像合成与语义编辑pix2pixHD(论文+代码)

简介: 英伟达和UC Berkeley的研究者最近公开一个名为pix2pixHD的项目,并公开了论文和代码。pix2pixHD能够利用条件GAN进行2048x1024分辨率的图像合成和处理,输入语义标注图生成接近真实的现实世界图像,例如街景图、人脸图像等,并且只需简单的操作即可修改和搭配图像,效果优于pix2pix和CRN等先前的方法。

英伟达和UC Berkeley的研究者最近公开一个名为pix2pixHD的“用条件GAN进行2048x1024分辨率的图像合成和处理”项目,并公开了论文和代码。pix2pixHD能够利用语义标注图还原接近真实的现实世界图像,例如街景图、人脸图像等,并且只需简单的操作即可修改和搭配图像。

003ea740e1a447e52fc9deaee940becf75a8071f

图:上方是输入的语义地图,下方是pix2pixHD合成图像

作者发布的视频介绍中,可以看到,你可以选择更换街景中车辆的颜色和型号,给街景图增加一些树木,或者改变街道类型(例如将水泥路变成十字路)。类似地,利用语义标注图合成人脸时,给定语义标注的人脸图像,你可以选择组合人的五官,调整大小肤色,添加胡子等。

4f8cec459379db7fcbeb35609b00e54118defbee

图:左下角是人脸的语义标注图,pix2pixHD合成各种不同五官、接近真实的人脸图像。


视频介绍:

b9b3c7534e25fab56c96346399aaf727ba9fd46e


论文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

作者:Ting-Chun Wang¹, Ming-Yu Liu¹, Jun-Yan Zhu², Andrew Tao¹, Jan Kautz¹, Bryan Catanzaro¹

¹NVIDIA Corporation  ²UC Berkeley

摘要

本文提出了一种利用条件生成对抗网络(conditional GANs)来合成高分辨率、照片级真实的图像的新方法。条件GAN已经实现了各种各样的应用,但是结果往往是低分辨率的,而且也缺乏真实感。在这项工作中,我们的方法生成了2048x1024分辨率的视觉上非常棒的效果,利用新的对抗损失,以及新的多尺度生成器和判别器架构。此外,我们还将我们的框架扩展到具有两个附加特征的交互式可视化操作。首先,我们合并了对象实例分割信息,这些信息支持对象操作,例如删除/添加某个对象或更改对象类别。其次,我们提出了一种方法,可以在给定相同输入条件下生成不同的结果,允许用户交互式地编辑对象的外观。人类意见研究(human opinion study)表明,我们的方法显著优于现有的方法,既提高了图像的质量,也提高了图像合成和编辑的分辨率。

ff745eef2f312cfb5970361d005568505951db4a

图1:我们提出了一个利用语义标注图(上图(a)的左下角)合成2048×1024分辨率图像的生成对抗框架。与以前的工作相比,我们的结果表现出更自然的纹理和细节。(b)我们可以在原始标签地图上改变标签来创建新的场景,例如用建筑物替换树木。(c)我们的框架还允许用户编辑场景中单个对象的外观,例如改变汽车的颜色或道路的纹理。请访问网站进行更多的对比和交互式编辑演示。

27594a284cba66078ba31485f0908e0f7b61f8e2

图2:生成器的网络架构。我们首先在较低分辨率的图像上训练一个残差网络G₁。 然后,将另一个残差网络G₂附加到G₁,然后两个网络在高分辨率图像上进行联合训练。具体来说,G₂中的残差块的输入是来自G₂的特征映射和来自G₁的最后一个特征映射的元素和。

47d4676d5a724a35dfc0d00a656f4aa653fb44b5

图3:使用实例图(instance map):(a)一个典型的语义标签图。请注意,所有汽车都有相同的标签,这使得它们很难区分开来。(b)提取的实例边界图。有了这些信息,更容易区分不同的对象。

3e77de07c6c586e6d5b295ca4c1fbff251582619

图4:没有实例映射(instance map)和带有实例映射的结果之间的比较。可以看出,当添加实例边界信息时,相邻车辆的边界更加清晰。

4707b550a37bd823f54f2456e54b76cc5d6ad8d8

图5:除了用于生成图像的标签之外,还使用 instance-wise特征。

结果

5cbd09f66b3cec56c2b2e55127303abb65df2d03

表1:Cityscapes 数据集上不同方法得出的结果的语义分割得分。我们的结果大大优于其他方法,并且非常接近原始图像的准确率(即Oracle)。

133124ba6a8733030ae3556dc67238712f426f1e

图7:在Cityscapes数据集上的比较(语义标注图显示在(a)的左下角)。对于有VGG损失和没有VGG损失,我们的结果比其他两种方法更接近真实。可以放大图片查看更多细节。

0f3ccf10a75dc3f9444e9cf24417cca133f1615b

图8:在NYU数据集上的比较。我们的方法比其他方法生成的图像更加逼真、色彩更丰富。

讨论和结论

本研究的结果表明,条件GAN(conditional GAN)能够合成高分辨率、照片级逼真的图像,而不需要任何手工损失或预训练的网络。我们已经观察到,引入perceptual loss可以稍微改善结果。我们的方法可以实现许多应用,并且可能对需要高分辨率结果,但是预训练的网络不可用的领域有潜在的用处,例如医学成像和生物学领域。

本研究还表明,可以扩展图像-图像的合成流程以产生不同的输出,并且在给定适当的训练输入 - 输出对(例如本例中的实例图)的情况下实现交互式图像处理。我们的模型从未被告知什么是“纹理”,但能学习将不同的对象风格化,这也可以推广到其他数据集(即,使用一个数据集中的纹理来合成另一个数据集中的图像)。我们相信这些贡献拓宽了图像合成的领域,并可以应用于许多其他相关的研究领域。


原文发布时间为:2017-12-3

本文作者:马文

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:英伟达、UC伯克利联合研究:条件GAN高分辨率图像合成与语义编辑pix2pixHD(论文+代码)

相关文章
|
29天前
|
传感器 人工智能 安全
AI + 视频监管:构筑智慧工地全场景安全防线
融合AI与物联网技术,智慧工地视频监管系统实现人员、设备、环境全维度智能管控,通过主动预警、全域覆盖、数据闭环,提升安全隐患识别效率,降低事故率67%,减少巡检成本40%,推动建筑安全管理迈向智能化、精细化新阶段。
224 0
|
SQL 关系型数据库 MySQL
将MySQL 数据迁移到 PostgreSQL
将MySQL 数据迁移到 PostgreSQL 可以采用以下步骤: 安装 PostgreSQL 数据库:首先,需要安装 PostgreSQL 数据库。可以从官方网站(https://www.postgresql.org/)下载最新版本的 PostgreSQL,并根据官方指南进行安装。 创建 PostgreSQL 数据库:在 PostgreSQL 中创建与 MySQL 数据库相对应的数据库。可以使用 pgAdmin 或命令行工具(如 psql)来创建数据库。例如,如果在 MySQL 中有一个名为 "mydb" 的数据库,那么可以在 PostgreSQL 中创建一个具有相同名称的数据库。 导
5097 0
|
8月前
|
存储 Cloud Native 安全
API 安全之认证鉴权
API 作为企业的重要数字资源,在给企业带来巨大便利的同时也带来了新的安全问题,一旦被攻击可能导致数据泄漏重大安全问题,从而给企业的业务发展带来极大的安全风险。
|
C++
【C++医学影像PACS】CT检查中的三维重建是什么检查?
【C++医学影像PACS】CT检查中的三维重建是什么检查?
422 0
WK
|
算法 决策智能
PSO算法的缺点有哪些
粒子群优化(PSO)算法是一种基于群体协作的随机搜索方法,源自对鸟群觅食行为的模拟。尽管其在多领域展现了独特优势,但也存在显著缺点:易陷局部最优、搜索精度不足、高度依赖参数设置、理论基础薄弱、适用范围有限及早熟收敛问题。针对这些问题,可通过结合其他优化算法、调整参数及改进更新公式等方式提升其性能。
WK
765 0
|
11月前
|
传感器 算法 机器人
《深度解析基于 C++的机器人操作系统(ROS)底层原理与开发之道》
在科技飞速发展的今天,机器人技术正在各个领域掀起革命。机器人操作系统(ROS)作为开源的机器人软件框架,占据着重要地位。C++作为ROS中常用的编程语言,其在ROS中的底层原理和开发方法对于机器人开发者至关重要。本文介绍了ROS的架构基础、C++在ROS中的节点和服务开发原理、参数管理以及开发方法与实践要点,帮助开发者深入了解和掌握ROS的开发技术。
844 41
基于PSO优化的MPPT最大功率跟踪光伏发电系统simulink仿真
本课题在Simulink中构建了基于粒子群优化(PSO)的最大功率点跟踪(MPPT)光伏发电系统,包括光伏模块、MPPT模块、PSO优化模块及电路模块。PSO模块采用Matlab编程并在Simulink中调用。系统通过优化算法在复杂环境下实现高效MPPT。仿真结果显示该系统具有良好的性能。版本:MATLAB2022a。
|
人工智能 数据可视化 API
Multi-Agent实践第9期: 多智能体的升级体验
AgentScope 的新版本主要从 RAG,可视化和系统提示优化三个角度进行了更新,旨在降低开发者的开发代价,提供更加友好的开发体验。
STM32CubeMX ULN2003步进电机驱动
STM32CubeMX ULN2003步进电机驱动
389 0
|
人工智能 算法 Java
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展
解锁LLMs的“思考”能力:Chain-of-Thought(CoT) 技术推动复杂推理的新发展