达摩院视觉算法黑科技之透明抠图

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 透明抠图问题作为抠图问题的一种,其采用的方法和模型构建与通常的模型有所不同,透明抠图需要将环境光,折射率的影响纳入计算,而一般的折射光图又很难获得,因此透明抠图的模型在过去一直难以建立,或者说很难达到令人满意的效果,达摩院视觉算法团队通过双分支解码器(Object Mask获取,Opacity预测),颜色纠正模块,对图像实现高精度透明抠图。

透明抠图 vs 非透明抠图
物体的抠图问题可以定义为求解以下的公式,即给定图像I,求解前景颜色F、背景颜色B和Alpha matte的线性组合:
1.png
对于透明物体而言,它展现在观察者眼中的颜色是由其前景颜色,背景颜色以及环境光线经过前景物体自我反射折射混合而成的,因此,它的公式会更加复杂一些:
2.png
3.png
Φ表示的是环境光的影响 它是所有光线E(w)与反射率方程R乘积在所有点上的二重积分,求解很复杂[1],导致实现精确的透明抠图是一个非常困难的问题。因此,现有透明抠图研究的目标也是实现视觉感受“真实”的抠图而已,并非追求完全真实的抠图结果。


现有研究
SOTA的Matting算法在同时提供原图和对应trimap的情况下,可以的实现对半透物体的处理(如下图为GCA-Matting[2]的效果),但tripmap在实际的图像的处理中难以获取,限制了这类算法其在业务中的使用。
5.png
TOM-Net[3]将透明抠图问题视为折射流的估计问题,网络支持对单图输入,经过三分支的编解码器网络,分别预测图像的Object Mask,attenuative mask,flow mask(折射流图),并可以通过折射流信息进一步在新的背景进行合成。该方法的局限性在于其假设物体必须全部为无色透明物体,并且在训练过程中需要折射流图作为label, 而折射流图在真实世界是非常难以获取的,因此该方法的训练数只能依赖于图形学合成,与真实透明图像的分布无法一致(图像的语义合理性存疑,例如玻璃杯在山前悬浮)。经过我们在实际数据上的测试,该方法在实际图像的表现并不理想。
6.png
Segmenting Transparent Objects in the Wild[4]提出了基于语义分支和边缘分支结构的真实世界透明物体分割网络,通过边界注意力模块(Boundary Attention Modeule)增强对透明物体的分割精度,并发布了目前数量最大的透明物体分割标注数据集Trans10K。然而,文章提出的算法和发布的数据集都是处理到语义分割层面,并没有对物体的透明度做进一步处理。
7.png


问题简化
考虑到透明抠图问题本身难以求解,而且数据构建也非常困难,在实际的应用场景中,为保证同时保证算法的泛化能力和抠图效果,我们对问题进行了简化, 我们假设所需处理的物体的透明部分是无色的,且所在环境的背景颜色分布相对均匀。在这样的条件下,背景的自发光或反射光的颜色可以认为是全局一致的颜色,不会出现多种颜色叠加的情况,Φ的估计就只是和背景颜色相关了。特别的,如果预知背景的颜色,可以通过将其作为先验引入Φ中,对结果进行背景杂色的抑制及去除。


模型设计
我们的模型输入为单张图像,首先提取其深层特征。然后进行语义级别的分割和提取,力求完整准确地获得物体所在图像区域(Mask)。同步进行对图像物体不透明度(Opacity)的预测。而不透明度(Opacity)的预测由于在训练的时候没有进行语义的约束,容易存在非主体区域的噪声影响,因此,将两者进行融合可以将透明信息约束在主体范围内。
最后,对于已知背景颜色先验的场景(如已知是绿幕),我们可以引入颜色纠正模块,实现对背景透出的杂色进行去除。对于背景颜色未知,但饱和度低的场景,抠图结果也依然可用。


结果与应用
在已知背景颜色先验的情况下,可以通过颜色纠正模块对背景透出的杂色进行去除(左到右:实拍图,Opacity, 直接抠图结果,色偏纠正结果)
9.png
10.png
对于背景颜色未知,但饱和度低的场景,抠图结果也依然可用,例如下面几组展示图。

8ccd80ba1cc9404fbf232241a3838424.png

8674a4bd9a104b47b1c2ec6c2f94b911.png

5c9f1d972846442bbda448a457f5032f.png

目前在车辆分割算法上,我们已经实现了基于透明抠图的思路用于改善半透车窗区域的效果,使得车辆经过抠图,能够更加自然和谐与新背景进行融合。目前车辆分割已经上线阿里云视觉智能开放平台(vision.aliyun.com),欢迎大家体验试用。

bf1999c82cb44c36a2b6ee30c63c66ee.png

总结与展望
目前的透明抠图算法,面对更为多样的真实场景下物体,仍然具有以下不足,需要进一步探索解决:
1.真实透明物体图像数据量严重不足,且标注困难;
2.主体不透明度图(Opacity)的预测容易受到图像中噪声的影响;
3.在得到Opacity图后,在未知背景先验,且背景颜色饱和度高的情况下,如何实现将背景色的去除(如下图的杯子整体泛蓝);
后续我们会考虑进一步提取背景的特征,将背景先验知识引入到透明度的估计上,增加RGB偏移输出信息,尝试对前景物体的颜色进行纠正。

[1] Environment matting and compositing
[2] Natural Image Matting via Guided Contextual Attention
[3] Learning Transparent Object Matting
[4] Segmenting Transparent Objects in the Wild

相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 搜索推荐
AIGC音频生成行业应用路在何方?
【1月更文挑战第3天】AIGC音频生成行业应用路在何方?
92 1
AIGC音频生成行业应用路在何方?
|
机器学习/深度学习 人工智能 达摩院
AIGC玩转卡通化技术实践
伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。
|
25天前
|
自然语言处理 语音技术
|
2月前
|
人工智能
[AI 快手 LivePortrait] 引领高效肖像动画新时代
快手推出了 LivePortrait,具备拼接与重定向控制的高效肖像动画,下载代码,准备环境,下载预训练权重并开始推理。
[AI 快手 LivePortrait] 引领高效肖像动画新时代
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI图像放大器:自媒体时代的利器
在自媒体时代,高质量图像对吸引观众至关重要。图像放大工具如VanceAI、Topaz Gigapixel AI和Adobe Photoshop等日益重要。VanceAI凭借其先进的深度学习技术、用户友好界面和定制化设置,在图像处理领域脱颖而出,成为内容创作者提升图像质量和竞争力的有力工具。
AI图像放大器:自媒体时代的利器
|
4月前
|
人工智能 算法 搜索推荐
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
122 0
|
11月前
|
物联网 开发者 异构计算
facechain人物写真生成工业级开源
facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github(GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.)上已有5.7K的star,论文链接:FaceChain: A Playground for Identity-Preserving Portrait Generation:https://arxiv.org/abs/2308.14256。
713 4
|
机器学习/深度学习 编解码 算法
【视觉智能开放平台】出品智能修图技术—智能转档算法
RAW转档是专业级摄影后期修图的必备环节,旨在将拍摄的RAW图转化为细节丰富,色彩准确的JPG原片,方便修图师基于转档结果进行更为个性化和精细化的美化操作。由于对效果的精准要求和流程的把控需求,目前修图师主要利用专业软件进行人工转档操作。整个过程耗时又费力,极大降低了后期修图的交付效率。为了赋能修图师,提升他们的工作效率,本文提出了一种基于数据驱动,自动转档的技术方案,以实现人工RAW转档的替代。
【视觉智能开放平台】出品智能修图技术—智能转档算法
|
人工智能 达摩院 搜索推荐
前沿科技 | 定制语音四部曲,让AI语音更具“人情味”
编者按: “冰雪是冬天的礼物;而我,最懂冰雪的快乐。驭冰雪是我独具的智慧。想要玩转冰雪的更多可能?跟上我,去未来!” 当冬奥虚拟主持人冬冬以语音合成的方式说出这句话时,原始发音人吃惊地表示,她已经分不出来这究竟是不是她说的话了。 达摩院语音实验室通过技术四部曲,即可完成虚拟主持人的个性化语音定制,今天请跟随我们的脚步一起来看看他们是如何实现的吧! 本文约2091字,建议阅读时间7分钟。
350 0
前沿科技 | 定制语音四部曲,让AI语音更具“人情味”
|
机器学习/深度学习 人工智能 算法
AIGC背后的技术分析 | 不止抠图、上色,看人工智能如何影响设计
在人工智能时代下,AR设计、智能硬件设计逐渐发展,设计的改革更多考虑的是如何将真实世界和数字世界进行融合,如何在自己产品上更好地阐释艺术、美感和实用性。
235 0