优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法

简介: 近些年来,生成对抗网络在许多图像生成和图像编辑任务上都获得了很大的成功,并受到越来越多的关注。对于图像编辑任务,现在面临的两个重要的挑战分别是:如何指导网络向目标图像学习(以提升图像编辑的效果)和如何感知输入图像内容(以提升图像编辑的精度)。

近些年来,生成对抗网络在许多图像生成和图像编辑任务上都获得了很大的成功,并受到越来越多的关注。对于图像编辑任务,现在面临的两个重要的挑战分别是:如何指导网络向目标图像学习(以提升图像编辑的效果)和如何感知输入图像内容(以提升图像编辑的精度)。

悉尼科技大学 FEIT 三年级博士生,优必选悉尼AI研究院访问学生,陶大程教授学生王超岳在雷锋网 AI研习社主办的学术青年分享会上结合他的两篇论文Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering(IJCAI 2017 Best student paper)和Perceptual Adversarial Networks for Image-to-Image Transformation(arXiv 2017),分享了对图像编辑做出的相应探索。

分享内容如下:

常见的图像编辑有图像去雨(雪)、图像填充、素描到照片、风格转换、图像超分辨率、图像上色、图像旋转、时间变换等,抽象来说就是给定一张图像以及要求,来生成新的图像。即让机器理解图像和生成图像。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

生成对抗网络是由Goodfellow在2014年提出的,算是一种新的网络架构,可以做有监督或无监督的学习。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

基于GANs的图像编辑框架如下所示:

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

接下来介绍第一篇论文,用于图像转换任务的感知对抗网络(Perceptual Adversarial Network,PAN)。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

近两年基于GANs的框架,有很多不同的优化,下图是对Pixel-wise loss、GANs loss和Perceptual loss的对比工作。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

Pixel loss优点是使用简单、训练速度快、稳定,缺点是输出图像模糊,质量低。

GAN loss优点是能提升生成图像质量,更加真实,锐利,缺点是学习整体生成分布,无法单独使用。

Perceptual loss优点是注重图像包含的高维特征,感知效果,缺点是受限于预训练的其他网络。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

下面是对提升生成图像质量做出的一些研究,引入不同的loss来生成不同的输出图像。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

他们希望有新的loss函数来弥补现有的问题,持续缩小生成图像和真实图像的差距。基于这样的想法提出了感知对抗损失。优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

使用感知对抗损失的理由如下:

感知:衡量生成图像和真实图像的高维特征的差异,并致力于缩小他们。

对抗:当现有高维特征的差异小于一定数值m ,D网络被更新以寻找新的高维空间,以进一步缩小仍存在的不同。

统一:所有训练统一在一个GAN框架中,无需引入其他预训练网络,且不受任务限制。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

他们引入感知对抗loss加GAN loss的结构,在这里引入GAN loss来让生成图像的整体分布符合真实图像的整体分布。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

下面是针对于这个网络的相关实验,主要有图像的去雨、从分割后的label的图像到街景的重现、卫星图到谷歌地图的转换、图像补全、素描生成真实图像的任务。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

下面是对比图像去雨雪的任务,他们的模型在色差的控制等方面都有所提升。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

下面是图像补全任务,对比CVPR 2016的Context Encoder,PAN能得到更加优化的效果。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

进行Pixel2pixel实验时与pix2pix做了对比,也可以看到明显提升。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

解决图像生成的质量之后,还有一个问题:interpretable。也就是如何解开神经网络的黑箱,并帮助计算机进一步理解图像。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

针对于如何在图像转换过程中理解整个网络,并控制中间层信息的表征,他们提出标签分解生成对抗网络(Tag Disentangled Generative Adversarial Networks, TDGAN),用于进行目标图像的再次渲染(Re-rendering)。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

给定输入图像,里面会包含一系列的输入信息,人脑看到之后很容易分理出这些信息,但之前的网络很难理解这些信息,因此很难对输入图像进行精细编辑,现在他们想要让网络能更进一步理解这些信息。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

他们提出分解表征法。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结


解决方案:标签。只要简单的改变标签,就能很容易生成微笑的图像。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

基于此,他们提出TDGAN,包括下图四个子网络。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

网络的框架图如下:

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

主要有f1、f2、f3、f4四个约束项:

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

这四个子网络采用如下交替训练的形式:

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

下面是工作相应的实验结果,给定单张椅子,给定一些想要的角度,可以生成不同角度的效果,另外可以生成人在不同光线及表情下的效果。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

下图是他们在两个数据集下做的一些任务。可以通过给定单张椅子照片,生成不同角度的椅子;也可以控制输入人脸图像的多种性质,如改变其角度,光照,表情等。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

总结如下:现有的很多方法都是在GANs的框架下,希望提升现有的图像编辑效果和提升图像编辑的精度,他们做了以下尝试,去让任务表现更好。

第一是从学习的层面,不再只是从像素层面或固定高维空间上去缩小真实图像和转换图像之间的不同,而是利用对抗学习的思想去持续寻找并缩小真实图像和转换图像之间尚存的差异。另一方面,他们希望算法可以更深入的理解图像,并帮助计算机能更加智能,通过提取和分解图像中包含的各种信息,让算法可以更精确的编辑图像,从而得到想要的结果。

优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

Perceptual Adversarial Networks for Image-to-Image Transformation

论文地址:https://arxiv.org/abs/1706.09138

Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering

论文地址:https://www.ijcai.org/proceedings/2017/0404.pdf

本次分享的视频如下:




本文作者:Non
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
2月前
|
人工智能 安全 算法
利用AI技术提升网络安全防御能力
【10月更文挑战第42天】随着人工智能技术的不断发展,其在网络安全领域的应用也日益广泛。本文将探讨如何利用AI技术提升网络安全防御能力,包括异常行为检测、恶意软件识别以及网络攻击预测等方面。通过实际案例和代码示例,我们将展示AI技术在网络安全防御中的潜力和优势。
|
2月前
|
人工智能 运维 物联网
AI在蜂窝网络中的应用前景
AI在蜂窝网络中的应用前景
55 3
|
9天前
|
人工智能 前端开发 Unix
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法
|
2天前
|
机器学习/深度学习 数据采集 人工智能
GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全
GeneralDyG 是南洋理工大学推出的通用动态图异常检测方法,通过时间 ego-graph 采样、图神经网络和时间感知 Transformer 模块,有效应对数据多样性、动态特征捕捉和计算成本高等挑战。
30 18
GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全
|
6天前
|
数据采集 人工智能 自然语言处理
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
FireCrawl 是一款开源的 AI 网络爬虫工具,专为处理动态网页内容、自动爬取网站及子页面而设计,支持多种数据提取和输出格式。
55 18
FireCrawl:开源 AI 网络爬虫工具,自动爬取网站及子页面内容,预处理为结构化数据
|
6天前
|
人工智能 JSON 安全
DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应
DeepSeek Engineer 是一款开源AI编程助手,通过命令行界面处理用户对话并生成结构化JSON,支持文件操作和代码生成。
117 5
DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应
|
29天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
68 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
28天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
92 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
11天前
|
人工智能 安全 搜索推荐
新手指南:人工智能poe ai 怎么用?国内使用poe记住这个方法就够了!
由于国内网络限制,许多用户在尝试访问Poe AI时面临障碍。幸运的是,现在国内用户也能轻松畅玩Poe AI,告别繁琐的设置,直接开启AI创作之旅!🎉
60 13
|
11天前
|
人工智能 自然语言处理 安全
已解决:Poe AI国内能用吗?国内用户如何使用Poe AI?亲测有效的方法来了!
人工智能正在重塑我们的世界,而Poe AI作为AI聊天机器人平台的佼者,更是引领着这场变革。它集成了众多顶尖AI模型,如OpenAI的GPT系列、Anthropic的Claude系列以及Google的PaLM等,为用户提供了一个探索AI无限可能的开放平台
63 12