收录180篇文献,上海交大推出深度学习图像合成领域首篇综述

简介: 作者:牛力收录 180 篇文献的首个深度学习图像合成技术综述文章。

图像合成 (image composition) 是指把一张图片的前景剪切下来,粘贴到另外一张背景图片上,得到一张合成图。广义来讲,把来自不同图片的多个视觉元素嫁接到同一张图片上,都属于图像合成的范畴。


图像合成有着广泛应用,比如人像换背景、虚拟社交、艺术创作、广告图片自动生成等等。为了得到理想的图像,图像合成和图像生成 (image generation) 往往会配合使用,图像生成负责从无到有,图像合成负责从有到优。图像生成的可控性有限,即使提供了大量的条件信息,也未必能生成完全符合预期的图片。从这个角度来说,图像合成更擅长精细控制,对完全符合预期的视觉元素进行拼接,得到真实合理的图片相比较其重大的应用价值,图像合成并没有受到足够的关注。


本论文是第一篇系统性梳理图像合成技术的综述,共收录 180 篇文献,总结了图像合成需要解决的子问题以及每个子问题涉及的研究子方向和代表性方法,总结了各个研究子方向的数据库、评测标准、传统方法、深度学习方法。因为合成图中的前景和背景原本都是真实的,组成一个整体之后由于前景和背景之间的不一致性变得不真实,图像合成旨在解决前景和背景之间的不一致性,让合成图再次变得真实,因此综述取名叫 making images real again。 


微信图片_20211205191227.png


微信图片_20211205191230.png


上图展示了得到一张合成图的过程,从一张图片上把前景用分割算法或者抠图算法剪切下来,粘贴到另外一张背景图片上,得到一张合成图。因此图像合成需要建立在分割 (segmentation) 算法或者抠图 (matting) 算法相对成熟的基础上,可以看成是分割算法或者抠图算法的下游任务。通过剪切复制得到的合成图可能会有诸多问题,影响合成图的真实程度和图片质量。


这些问题可以归结为合成图中前景和背景之间的不一致性 (inconsistency),进一步可分成外观不一致性 (appearance inconsistency) 和几何不一致性 (geometry inconsistency)。


外观不一致性和几何不一致性又可以细分成很多子问题。每个子问题都非常有挑战性,都具有独立的研究价值,所以从图像合成任务衍生出了很多子方向,每个子方向重点研究一个子问题。


图像合成任务看似简洁,实则包罗万象,涉及的技术纷繁复杂。在图像合成领域,之前有些工作只关注一个子问题,有些工作则同时关注多个子问题,任务设定各不相同,给人一种支离破碎的感觉。该综述试图理清各个研究工作之间的区别和联系,还原出一副较为完整的图景。有了完整的图景,在图像合成的过程中如果遇到具体问题,就能够很方便地找到对应的解决方案。接下来分别介绍外观不一致性和几何不一致性。


外观不一致性包括但不局限于:1)前景和背景之间不自然的边界; 2) 前景和背景不匹配的颜色光照信息;3) 缺失或不合理的前景阴影或反光。


关于第一个子问题,前景物体一般通过分割算法或者抠图算法获得,但是边缘往往不能被清晰完整地分离出来。如果把边缘不完美的前景粘贴到背景上,前景和背景之间就会存在不自然的边界。为了解决第一个子问题,图像融合 (image blending) 旨在消除不自然边界,让前景和背景无缝衔接。


关于第二个子问题,因为前景和背景可能是在不同的拍摄环境下 (天气、季节、时间、照相机参数) 拍摄的,得到的合成图就会看起来不和谐,比如前景是在白天拍摄的,背景是在夜间拍摄的。为了解决第二个子问题,图像和谐化 (image harmonization) 旨在调整前景的颜色光照信息,使其和背景看起来更和谐。


关于第三个子问题,当把前景粘贴到背景上,前景可能会对背景造成影响,比如阴影或者反光。为了解决第三个子问题,阴影或反光生成方法可以根据前景和背景信息为前景物体生成合理的阴影或者反光。因为反光生成的应用场景有限,相应的研究工作特别少,所以在本论文中我们侧重于前景物体的阴影生成。


几何不一致性包括但不局限于:

1) 前景物体过大或者过小;

2) 前景物体没有受力支撑,比如悬浮在空中;

3) 前景物体出现在语义不合适的地方,比如船出现在内陆上;

4) 前景和周围物体存在不合理的遮挡关系;

5)前景和背景的透视角度不一致。


总结起来就是前景物体的大小、位置、形状不合理。物体摆放 (object placement) 和空间形变 (spatial transformation) 旨在为前景寻找合理的大小、位置、形状,从而避免上面提到的诸多不合理因素。物体摆放一般来说主要是对前景物体进行平移和缩放,而空间形变则会涉及到相对复杂的几何形变,比如仿射变换或透视变换。


在本论文中,为了方便描述,我们用物体摆放指代任意几何形变。之前物体摆放的研究工作大多通过寻找合适的位置避免不合理的遮挡,也有少数工作探索当不合理遮挡发生时如何对前景进行调整,比如根据估计的深度信息把前景的被遮挡区域擦除。 


微信图片_20211205191232.png

上图展示了四个研究方向:物体摆放 (object placement), 图像融合 (image blending), 图像和谐化 (image harmonization), 阴影生成 (shadow generation)。模型输入原始合成图和前景掩码,输出调整之后更加真实自然的合成图。


之前的研究工作有些侧重于解决一个子问题,有些则同时解决多个子问题。为了方便寻找每个子方向的系列方法,比较不同工作的研究范围,我们在下表中列举了五个图像合成中的子问题: 边界 (boundary),外观(appearance, 主要指前景的颜色光照),阴影 (shadow), 几何信息 (geometry, 主要指大小位置形状),遮挡 (occlusion, 主要指前景被遮挡区域),并且将之前的研究工作对号入座。


从下表可以看出,大多数研究工作主要解决一个子问题,解决外观和几何的工作相对较多。其次有少量工作解决两个子问题,只有极少数工作解决三个及以上的子问题。 


微信图片_20211205191234.png

在解决了外观不一致性和几何不一致性之后,合成图看起来更加真实自然。但是有些时候,我们会对合成图提出更高的要求,不仅要求合理,而且要求美观。比如把一个花瓶放在另外一张背景图片的桌子上有无数种合理的大小和位置。然而考虑到构图规则和美学准则,只有部分位置和大小可以让整张图片看起来较为美观。


在这种情况下,我们需要对一张合成图进行美学评估。美学评估包含很多因素,比如光线、颜色和谐程度、颜色鲜艳程度、景深、三分法、对称性等等。上文介绍的图像和谐化可以提高整张图片的和谐程度,因此也可以被认为提高了图片的美学质量。在本论文中,我们重点关注和物体摆放直接相关的美学评估,即构图相关的美学评估。构图相关的美学评估主要考虑图片中视觉元素的布局,和前景物体的位置大小直接相关。


虽然图像合成有着非常广阔的应用前景,但是该技术也有可能被用来作恶,比如传播虚假消息、制作伪证等等,对人们的生活产生负面的影响。不仅是图像合成,图像生成也有同样的问题。所以我们在研究图像合成技术的同时,也要研究它的反面,即鉴别合成图。


现有一些图像伪造检测 (image manipulation detection) 的方法,利用前景和背景不同的噪音特征、照相机参数、颜色光照信息等线索鉴别一张图片是否是伪造的。伪造图像包含的范围很广,比如图像拼接 (image splicing)、图像填充、图像增强等等。其中图像拼接检测 (image splicing detection) 和图像合成最为契合。图像拼接检测可以识别出合成图,而且能成功定位到合成图中粘贴的前景物体。图像合成和图像拼接检测之间相互博弈,图像合成旨在让合成图片和真实图片不可区分,而图像拼接检测旨在把合成图片和真实图片区分开来。


尽管之前有不少图像合成的研究工作,图像合成领域也取得了很大的进步,但是该领域依然存在很多严峻的问题:


1)大多数工作只考虑把一个前景物体粘贴到另外一张背景图片上,并且假设前景物体是完整的。然而在现实应用中往往需要把多个前景物体合成在同一张背景图片上,并且前景物体可能残缺不全。因此我们需要改进图像合成算法使其能够适应复杂的应用场景。


2) 图像合成任务包含很多子问题,并且每个子问题都非常有挑战性,都可以开辟一个独立的研究子方向。但这种研究方式让图像合成领域有很强的割裂感,没有一个系统可以统一解决所有的子问题,给图像合成系统在真实应用场景中的部署带来了困难。


3) 之前的图像合成工作非常零散,不成体系。由于 ground-truth 数据极难获取,评测又有很强的主观性,很多子领域没有统一的数据集,不同的方法不能直接比较,在一定程度上阻碍了图像合成技术的发展。所以迫切需要为各个子领域建立统一的数据集,公平比较,推动各个子领域的发展。


4) 现有大多数方法都是从图片到图片,也就是 2D->2D。但一个直观的想法是从合成图推测出完整的前景和背景的 3D 信息、场景的光照信息等,根据这些完整信息实现图像和谐化、前景物体阴影生成等功能。然而,基于现有技术从单张图片推测出所有信息是非常困难的,预测不准可能会适得其反。但是 2D->3D->2D 仍然是一条值得探索的路径,或许可以找到 2D->2D 和 2D->3D->2D 之间难度适中、性能最佳的中间地带。


综上所述,本论文的贡献有三点:
1)据我们所知,这是首篇深度学习图像合成技术综述。


2) 我们对图像合成任务中需要解决的子问题以及针对每个子问题的研究子方向做了系统的梳理和总结,呈现出图像合成领域较为完整的图景。


3) 为了综述的完整性,我们还介绍了构图相关的美学评估和图像拼接检测。而且,我们在 GitHub 上总结了图像合成相关的论文、代码、数据库,欢迎下载使用。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文,61页pdf582篇文献
在优化和决策过程中,不确定性量化(UQ)在减少不确定性方面起着至关重要的作用。它可以用于解决科学和工程中的各种实际应用。贝叶斯逼近和集成学习技术是目前文献中使用最广泛的两种UQ方法。 在任何基于人工智能的系统中,以一种值得信赖的方式表示不确定性是非常可取的。通过有效地处理不确定性,这样的自动化系统应该能够准确地执行。不确定性因素在人工智能中扮演着重要的角色
2573 0
首篇《深度学习不确定性量化: 技术、应用与挑战》2020综述论文,61页pdf582篇文献
|
机器学习/深度学习 TensorFlow 算法框架/工具
深度学习与生成对抗网络:图像合成和风格迁移
深度学习和生成对抗网络(GAN)在计算机视觉领域中取得了重大突破。本文将介绍如何使用GAN进行图像合成和风格迁移,通过训练生成器和判别器网络,实现从随机噪声生成逼真图像和将图像转换为不同风格的图像。我们将探讨GAN的工作原理、网络架构和训练过程,并提供实例代码,帮助读者快速上手实现图像合成和风格迁移。
525 0
|
机器学习/深度学习 算法 数据可视化
上海交大团队使用联合深度学习优化代谢组学研究
上海交大团队使用联合深度学习优化代谢组学研究
230 0
|
机器学习/深度学习 人工智能 编解码
深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)
深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)
466 0
|
机器学习/深度学习 缓存 自然语言处理
深度学习于语音合成研究综述
深度学习于语音合成研究综述
645 0
|
机器学习/深度学习 自然语言处理
BIB | 深度学习生物医学命名实体识别综述
BIB | 深度学习生物医学命名实体识别综述
536 0
BIB | 深度学习生物医学命名实体识别综述
|
机器学习/深度学习 缓存 算法
计算机视觉领域的低功耗深度学习前沿技术综述
深度卷积网络在许多计算机视觉任务上都获得了成功。然而,最准确的深度神经网络需要数百万的参数和运算,这使得模型的功耗、计算和内存消耗都无比巨大,进而导致在计算资源受限的低功耗设备上,大型深度卷积网络难以部署。近期业界的一些研究工作主要集中于在不显著降低模型精确度的情况下,减少内存需求、功耗水平和运算操作的数量。
1095 0
计算机视觉领域的低功耗深度学习前沿技术综述
|
机器学习/深度学习 自然语言处理 算法
深度学习综述
本文是《Nature》杂志为纪念人工智能60周年而专门推出的深度学习综述,也是Hinton、LeCun和Bengio三位大神首次合写同一篇文章。该综述在深度学习领域的重要性不言而喻,可以说是所有人入门深度学习的必读作品。
4396 0