照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
【新智元导读】照片里面有不想要的东西,抠起来又太麻烦?神器来了!三星研究员最近提出一个图像修复模型:LaMa,在高分辨率图像输入下也无需太多计算量,并且效果十分惊人!


拍照的时候,想必大家都有过一种经历:背景永远有一大堆其他游客,拍完照还得找半天哪个是自己。除了其他游客外,如果照片里有一个垃圾桶,或者跟画面无关的元素过多也会破坏整张照片的美感。对于PS图片技术不过关的小伙伴来说,想把这些元素从画面里抠出去,那可真是太难了。但人工智能技术发展的目的就是让这种工作变得简单!只需一键,就可以把画面中不想要的元素统统抠掉,而且「毫无PS痕迹」!


图像修复


长期以来,大量的研究人员一直在研究如何更好地移除画面中的元素,并将其正确地替换背景,这个任务也称为图像修复(image inpainting)。这个任务看起来简单,但实现起来却相当难,因为被遮挡掉的背景信息对于AI来说是完全未知的,生成背景全靠脑补。并且一些遮挡掉的元素也并非是规则的背景图,也可能是相当复杂的元素。但从2016年Image Inpainting的开山之作发布以来,目前图像修复的效果已经相当惊人了,在人脸修复上尚有「想象」的成分存在,但对于抠背景来说简直小菜一碟。人类在进行图像脑补的时候,会很自然而然地利用上人类对三维世界的信息理解,但对于AI来说,他所能接收到的信息只有二维图像中的像素点。这种信息接收上的差异也是AI图像修复的难点之一。并且人类也能根据视觉常识,从物体的一部分来推测出物体的全貌。所以想让AI学会图像修复,我们首先需要教会机器一件事:世界究竟是什么样子?ImageNet数据集提供了大量二维图片,所以让机器了解世界这点很容易做到。另一个问题是,通常需要修复的真实照片分辨率都很高,所以需要的计算成本也更高。但目前大多数图像修复方法都聚焦于低质量的图像。虽然可以用各种方法来讲图像降低分辨率为小图像,然后把修复的结果放大应用于原图像,但最终结果肯定不如在原始图像上进行修复的效果好。

高分辨率图像带来的是更真实的图像修复,但也需要更多的时间来进行训练和图像处理,难道真的没有两全之法?


LaMa模型

针对上面提到的问题,三星的研究人员提出了一个新模型LaMa(LArge MAsk inpainting),能够在高分辨率图像的情况下,随意删除图像中的各种元素。LaMa的主要创新点为:提出一种新的修复网络结构,使用快速傅立叶卷积,具有图像宽接收域,高感受野感知损失,较大的训练掩码(mask),可以有效提升前两个组件的性能潜力。

该模型还可以很好地泛化到比训练时更高的分辨率图像,以较低的参数量和计算成本实现与基准相媲美的性能。论文地址:https://arxiv.org/abs/2109.07161代码地址:https://github.com/saic-mdal/lama例如下面图片中的各种树、窗台,路灯、汽车都可以一键P掉。模型的主要架构如下图所示。包含一个mask的黑白图,一张原始图像。将掩码图覆盖图像后输入Inpainting网络中,先是降采样到低分辨率,再经过几个快速傅里叶卷积FFC残差块,最后输出上采样,生成了一张高分辨的修复图像。和一般的图像修复网络一样,LaMa也必须理解图像并尝试填充它认为最适合的像素。因此,在这种情况下,为了减少计算,它也需要在网络的开始阶段缩小图像。但不一样的是,LaMa在处理图像时采用了一些特别的技术来保证降采样后的图像质量和原始高分辨率图像相同。网络主要分为两步。首先,模型会进行图像压缩并尝试仅保存重要的相关信息。网络最后将主要保留有关图像的通用信息,如颜色、整体风格或出现的常见的物体,但不会保留精确的细节。然后,模型会尝试使用相同的原理但向后重建图像。研究人员使用了一些技巧,例如跳过连接(skipt-connections)可以保存来自网络前几层的信息,并将其传递到第二步,以便模型可以将其定向到正确的对象。简单来说,模型能够知道图片里有一个塔,蓝天和树木,这种就叫全局信息(global information),但仍然需要一些skip connections来让模型识别到埃菲尔铁塔在图片的中央。对于更细粒度的信息,例如这里或那里有云,树有哪些颜色等细节,研究人员称之为局部信息(local information)。但还存在一个问题,就是在这种情况下,模型正在处理的是质量较低的图像,这会降低图像修复的质量。所以特殊之处在于,LaMa不是像在常规卷积网络中那样使用卷积并跳过连接来保持局部知识,而是使用快速傅里叶卷积,也就是说网络将在空间域和频域中同时工作,并且不需要回到前面的层来理解图像的上下文。每一层都将与空间域中的卷积一起处理局部特征,并在频域中使用傅里叶卷积来分析全局特征。频域有点特殊,基本上就是将输入图像转换为所有可能的频率,所以这个新创建的图像的每个像素都将代表一个覆盖整个空间图像的频率以及它的存在量,而不是颜色。当然,这里的频率并非是声音频率,而是代表不同尺度的重复模式。因此,对新的傅里叶图像进行卷积可以让模型在卷积过程的每个步骤中处理整个图像,因此即使在前几层也可以更好地理解图像,而无需太多计算成本,这种效果通过常规的卷积是无法实现的。然后,全局和局部的结果都被保存并发送到下一层,下一层将重复这些步骤,最终将获得可以放大回来的最终图像。傅立叶域的使用使其可以扩展到更大的图像,因为图像分辨率不会影响傅立叶域,它使用整个图像的频率而非颜色作为特征,并且寻找的重复模式需要是相同的图像的大小,这意味着即使在用小图像训练这个网络时,也能取得相同的效果。研究人员在CelebA-HQ数据集上的图像修复进行了实验,采用可学习感知图像斑块相似性(LPIP)和FID作为定量评估指标。与LaMa傅立叶模型相比,几乎所有的模型的性能都更弱(红色上箭头)。表中还包括了不同的测试掩码生成的不同策略的度量,即窄掩码(narrow)、宽掩码(wide)和分段掩码(segmentation),LaMa傅里叶的性能仍然更强,表明了实验方法更有效地利用了可训练参数。下面是一些模型的图像修复样例。也有一些修复的不是很好的样例。虽然结果有好有坏,但LaMa模型仍然性能出众,向现实应用迈出了重要一步。


参考资料:

https://www.louisbouchard.ai/lama/


相关文章
|
3月前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
198 60
|
3月前
|
机器学习/深度学习 人工智能
谷歌AI天气神算登Nature:30秒模拟22天天气,效率暴涨10万倍!
【8月更文挑战第9天】NeuralGCM是由谷歌AI团队开发的革命性天气预测模型,结合机器学习与传统大气物理模型,大幅提高了预测效率与准确性。它能在30秒内完成22天的天气模拟,效率比传统模型提升10万倍。NeuralGCM通过学习大量历史数据,其1至10天内的预测精度媲美甚至超过顶级模型,在极端天气预测方面也有出色表现。尽管尚存局限,如长期气候预测的精确度待提升,但NeuralGCM展现了在应对气候变化及气象挑战中的巨大潜力。【论文链接:https://www.nature.com/articles/s41586-024-07744-y】
50 7
|
4月前
|
人工智能 自然语言处理 测试技术
这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于视力测试
【7月更文挑战第28天】新研究表明VLM在简单视觉任务上的局限性。论文《Vision language models are blind》指出, GPT-4o、Claude-3.5 Sonnet等顶级模型在如判断形状重叠或字母识别等基本任务上表现不佳。另一研究在CVPR'24上介绍了一个新框架, 利用TRUMANS数据集生成精细的人物动作, 包括手部运动, 显示出在复杂场景下的强大能力, 尽管仍面临一定的局限。[论文链接](https://arxiv.org/pdf/2407.06581) [TRUMANS](https://arxiv.org/pdf/2403.08629)
43 4
|
4月前
|
人工智能 编解码
|
6月前
|
机器学习/深度学习 编解码 算法
微软诈骗届王牌框架,真到可怕!一张照片+音频即可生成数字人
【5月更文挑战第8天】微软发布VASA-1框架,仅需照片和音频即可实时创建逼真数字人,引发诈骗关注。该技术利用深度学习,将静态照片转为动态面部特征,根据音频生成唇动、表情和头部动作,实现高真实感、实时、多模态输入的数字人生成。尽管有广泛应用前景,如虚拟主播、游戏角色等,但其高真实度也可能加剧诈骗风险,需平衡技术创新与安全防范。[[论文链接](https://arxiv.org/pdf/2404.10667.pdf)]
195 0
|
人工智能 编解码 计算机视觉
照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
158 0
|
机器人 人机交互
终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人
192 0
|
机器学习/深度学习 人工智能 算法
揭秘美图影像实验室:数据、算法和一件关于美的事
自成立以来,美图影像实验室的研究成果几乎改变了美图软件、硬件中所有功能。一键美颜、实时美妆,或是时下相当流行的美图秀秀手绘功能,都有这个实验室的功劳。
372 0
揭秘美图影像实验室:数据、算法和一件关于美的事
|
机器学习/深度学习 人工智能 算法
全球首例!移动材料上实现动态对抗,这件T恤让你在AI眼皮下隐身
全球首例!移动材料上实现动态对抗,这件T恤让你在AI眼皮下隐身
223 0
|
机器学习/深度学习 人工智能 编解码
448亿像素,荷兰国宝级名画高清重生!AI两个月扫描拼合,裂缝笔触清晰到令人发指
448亿像素,荷兰国宝级名画高清重生!AI两个月扫描拼合,裂缝笔触清晰到令人发指
217 0

热门文章

最新文章