该卸载PhotoShop了!MIT用AI实现3分钟自动抠图,精细到头发丝

简介:

是时候卸载你的PS软件了。

最近,MIT计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种AI辅助的图像编辑工具,它可以自动抠图,替换任何图像的背景。

像这样:

35744c22eb09aca079d34b538d26d5398fe16033

和这样:

17f81bb4c24fa070b6961cdae29e600865ac196f

要使抠完的这些图像看起来很逼真并不是一件容易的事,因为图像编辑必须要成功捕捉前景和背景之间微妙的审美转换点,这对于人类头发等复杂材质来说尤其困难。

下图除外。

ac9b2409c43577eefb8d7055a0b211e962e12f78

“处理这些图像的棘手之处在于,图像中每个像素并不是全部只属于一个物体。”麻省理工学院计算机科学与人工智能实验室(CSAIL)的访问研究员Yagiz Aksoy说。“很多时候,我们很难确定哪些像素是背景的一部分,哪些像素是特定的人的一部分。”

除了经验最丰富的编辑人员之外,其他人都很难把控这些细节。但是在最近的一篇新论文中,Aksoy和他的同事展示了一种利用机器学习让照片编辑过程自动化的方法,而且表示这种方法也可用于视频处理。

该团队提出的方法可以将拍摄的图像自动分解为一组不同的图层,图层之间通过一系列“软过渡”(soft transitions)相分隔。

他们把这个系统命名为“语义软分割”(semantic soft segmentation,SSS),它能够分析原始图像的纹理和颜色,并将其与神经网络收集的有关图像中实际目标的信息相结合。

这一技术有多牛?看下面的视频体会一下:

9c8ea0a8bde42c618a7e42d5f65f49fce75c1aeb

3分钟AI自动抠图,彻底抛弃PhotoShop

c58e74154e4790857b5e1c1b56644d203a134af8

编辑器将图像中的对象和背景分割成不同的部分,以便于选择。但不像大多数图片编辑软件需要式样磁性套索或魔术套索工具,MIT开发的AI工具并不依赖于用户输入的上下文,你不必跟踪一个对象或放大并捕捉精细细节。AI可以自动实现这一过程。

这个过程从神经网络估计图像的区域和特征开始:

a0736ee4865090fe6c82cd6df8874aaeb019a5c7

然后,神经网络检测到“soft transitions”,例如狗狗的毛发和草。以前这个过程必须手动去做。

fb7c5ba1a7f42246e809d0a8a5c9919ad42b3ce6

然后通过颜色将图像中的像素相互关联:

fb7c5ba1a7f42246e809d0a8a5c9919ad42b3ce6

这些信息与神经网络检测到的特征相结合,对图像的层进行估计。

587f925730ae19c3e20a60cab5e7bf826bf66bbe

经过这一系列处理,现在,可以实现AI自动抠图并更换背景了。

e96e7550ef6c8b735ad83367e1efc87afe34fc4e

研究人员表示,这样自动处理一张640×480的图像需要3~4分钟

“一旦计算出这些软分割段,用户就不必手动套索,也不用对图像的特定图层的外观进行单独修改,”Aksoy说道,他在上周与温哥华举办的SIGGRAPH计算机图形会议上发表了该技术的论文。“这样一来,更换背景和调整颜色等手动编辑任务将变得更加容易。”

当然,这个魔术一般的工具背后涉及许多复杂的算法和计算,我们将在后文介绍。该团队使用神经网络来处理图像特征和确定图像的柔化边缘。

技术细节:图像“软分割”技术炼成大法

该方法最重要的是自动生成输入图像的软分割,也就是说,将输入图像分解成表示场景中对象的层,包括透明度和软过渡(soft transitions)。

e204a4dfddfeafd191f8c566b3424883a027c274

图2:SSS方法的概述

如上图所示,对于输入图像,我们要生成每个像素的超维语义特征向量(hyperdimensional semantic feature vectors),并使用纹理和语义信息定义图形。图形构造使得相应的Laplacian矩阵及其特征向量揭示了语义对象和它们之间的软过渡(soft transitions)。

我们使用特征向量来构建一组初始的软分割(soft segments),并将它们组合起来得到语义上有意义的分割。最后,我们对soft segments进行细化,使其可用于目标图像编辑任务。

非局部颜色亲和性(Nonlocal Color Affinity)

我们定义了一个额外的 low-level affinity,表示基于颜色的长期交互。

这种亲和性(affinity)基本上确保了具有非常相似的颜色的区域在复杂场景结构中保持关联,其效果如下图所示。

4f979e28ec44aeb7d99c61e1a7a0676376d1273f

高级语义亲和性(High-Level Semantic Affinity)

虽然非局部颜色亲和为分割过程增加了大范围的交互,但它仍然属于低级别特征。我们的实验表明,在没有附加信息的情况下,在分割中仍然会经常对不同对象的相似颜色的图像区域进行合并。

为了创建仅限于语义相似区域的分割片段,我们添加了一个语义关联项,对属于同一场景对象的像素进行分组,并尽量防止来自不同对象的像素的混杂。我们在目标识别领域的先前成果的基础上,在每个像素上计算与底层对象相关的特征向量。

我们还定义了超像素的语义亲和。除了增加线性系统的稀疏性之外,超像素的使用还减少了过渡区域中不可靠特征向量的负面影响,如图4所示。

6612b350c1f8140a7b29ff3c62c304fc7a7398df

图4. 不同处理流程效果比较。(a)仅使用Laplacian matting(b)结合使用Laplacian matting和语义分割 (c)进一步利用稀疏颜色连接方法。

由于特征向量不能表示人与背景之间的语义切割,因此仅使用Laplacian matting会导致包括背景的大部分的人物分割片段突出显示。加入稀疏颜色连接可提供更清晰的前景遮景。

创建图层

我们使用前面描述的语义亲和来创建图层,得到Laplacian matrix L。我们要从该矩阵中提取特征向量,并使用两步稀疏化过程,利用这些特征向量创建图层。

18741f469d9043c5767f363274846d95406101df

图6.图像(a)显示了像素稀疏化之前(b)和之后(c)的结果。

如图所示,因为我们的结果(c)保留了头发周围的柔和过渡,而常数参数(d)则会导致过度稀疏的结果。

语义特征向量

61beb2943f159616bb7e672160a3f47fb4c05a67

图8.我们首先为给定图像生成每像素128维特征向量(图a)。图b表示128维到3维的随机投影。我们利用每个图像的主成分分析(c)将特征的维数减少到3。在降维之前,使用引导过滤器对特征进行边缘对齐。

更多技术细节,请阅读论文:

d15470b8d9127f7609c04dda535d830990c2bcb6

该论文由麻省理工学院副教授Wojciech Matusik、CSAIL博士后研究员Tae-Hyun Oh、Adobe Research的Sylvain Paris、以及苏黎世联邦理工学院和微软的Marc Pollefeys共同撰写。

论文地址:

http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf

未来可用于视频处理

SSS目前主要是处理静态图像。不过研究团队表示,未来可以预见将该技术用于视频处理,并将可能产生许多电影制作应用程序。

研究人员表示,他们的目的并不是解决一般的自然抠图问题。自然抠图是一个成熟的领域,面临许多特有的挑战,例如在非常相似颜色的前景和背景区域中生成精确的抠图结果。目前最先进的方法取决于两个区域的颜色分布。当目标颜色非常相似时,他们的方法可能在开始的约束稀疏化步骤中失败,或者基于大面积过渡区域建立了不可靠的语义特征向量,可能导致软分割的失败。

363175e81c49607112885fc7220b2282da2ab7c4

两个失败的例子

“我们想让抠图的过程变得更简单、快捷,让一般用户也可以更方便地进行图像编辑。“Aksoy说。“我们的目标是,只需点击一下鼠标,编辑就可以将图像组合在一起,打造出成熟、逼真的梦幻世界。”

Aksoy表示,目前SSS可供Instagram和Snapchat等社交平台使用,让图像过滤器的效果更加逼真,尤其是在更改自拍背景或模拟特定类型的相机时。在未来,研究人员计划进一步将处理图像所需的时间从几分钟降低到几秒,并通过提高系统匹配颜色和处理光照和阴影目标的能力,使图像看上去更加逼真。


原文发布时间为:2018-08-21

本文作者:肖琴、大明

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:该卸载PhotoShop了!MIT用AI实现3分钟自动抠图,精细到头发丝

相关文章
|
10月前
|
机器学习/深度学习 人工智能 算法
UCLA、MIT数学家推翻39年经典数学猜想!AI证明卡在99.99%,人类最终证伪
近日,加州大学洛杉矶分校和麻省理工学院的数学家团队成功推翻了存在39年的“上下铺猜想”(Bunkbed Conjecture),该猜想由1985年提出,涉及图论中顶点路径问题。尽管AI在研究中发挥了重要作用,但最终未能完成证明。人类数学家通过深入分析与创新思维,找到了推翻猜想的关键证据,展示了人类智慧在数学证明中的不可替代性。成果发表于arXiv,引发了关于AI在数学领域作用的广泛讨论。
315 89
|
7月前
|
机器学习/深度学习 人工智能 算法
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
PRefLexOR 是 MIT 团队推出的新型自学习 AI 框架,结合偏好优化和强化学习,通过递归推理和多步反思,动态生成知识图谱,支持跨领域推理和自主学习。
316 3
PRefLexOR:MIT自进化AI框架上线!动态知识图谱+跨域推理,重塑自主思考
|
8月前
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
620 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
7月前
|
人工智能
MIT 76页深度报告:AI加速创新马太效应,科学家产出分化加剧!缺乏判断力将被淘汰
近日,麻省理工学院(MIT)发布了一份76页的深度研究报告,探讨AI对科学发现和创新的影响。研究对象为1018名美国科学家,结果显示AI使新材料发现增加44%,专利申请增长39%,产品创新提升17%。然而,AI对高能力科学家的产出提升更显著,加剧了科学家间的分化。AI还改变了科学家的工作内容,减少了创意构思时间,增加了评估任务,导致工作满意度下降,但科学家对AI的信心增强。报告全面分析了AI带来的机遇与挑战。论文地址:https://conference.nber.org/conf_papers/f210475.pdf
264 14
|
8月前
|
存储 人工智能
Scaling Law或将终结?哈佛MIT预警:低精度量化已无路可走,重磅研究掀翻AI圈
哈佛大学和麻省理工学院的研究人员最近发布了一项重磅研究,对Scaling Law在低精度量化中的应用提出严重质疑。研究表明,随着训练数据增加,低精度量化带来的性能损失也增大,且与模型大小无关。这挑战了通过增加规模提升性能的传统观点,提醒我们在追求效率时不能忽视性能损失。该研究结果在AI圈内引发广泛讨论,提示未来需探索其他方法来提高模型效率,如混合精度训练、模型压缩及新型硬件架构。论文地址:https://arxiv.org/pdf/2411.04330。
181 11
|
10月前
|
Web App开发 机器学习/深度学习 人工智能
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
Magic Copy 是一款开源的 AI 抠图工具,支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术,能够自动识别图像中的前景对象并提取出来,简化用户从图片中提取特定元素的过程,提高工作效率。
468 7
Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图
|
10月前
|
人工智能 数据挖掘
AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!
麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750
230 12
|
11月前
|
人工智能 知识图谱
成熟的AI要学会自己搞研究!MIT推出科研特工
MIT推出科研特工SciAgents,结合生成式AI、本体表示和多代理建模,实现科学发现的自动化。通过大规模知识图谱和多代理系统,SciAgents能探索新领域、识别复杂模式,加速新材料发现,展现跨学科创新潜力。
171 12
|
12月前
|
人工智能 自然语言处理 机器人
MIT新研究揭秘AI洗脑术!AI聊天诱导人类编造记忆,真假难辨
麻省理工学院的一项新研究《基于大型语言模型的对话式AI在证人访谈中加剧虚假记忆》显示,使用生成式聊天机器人进行犯罪证人访谈会显著增加参与者的虚假记忆,且影响持久。研究设置了对照组、问卷访谈、预设脚本及生成式聊天机器人四种条件,结果显示生成式聊天机器人诱导的虚假记忆数量远超其他方法。尽管AI技术在效率和准确性方面潜力巨大,但在敏感领域需谨慎应用,并需进一步评估风险,制定伦理准则和监管措施。论文详细内容见[这里](https://arxiv.org/abs/2408.04681)。
230 2
|
人工智能 算法 程序员
程序员为何容易爱上AI?MIT学者诊断:智性恋浓度过高!
【9月更文挑战第20天】近日,一篇由MIT学者撰写的论文在网络上引发热议,探讨了程序员为何易对AI产生深厚情感,即“智性恋”。论文指出,程序员在开发和使用AI时,因对其智能和能力的钦佩而形成依赖与认同,但这可能导致过度依赖AI,忽视自身价值或其局限性,甚至引发不健康的竞争。论文链接:https://arxiv.org/pdf/2407.14933。
195 5

热门文章

最新文章