达摩院探访,机器视觉之发丝级抠图技能解析?

简介: 视觉技术作为人工智能之眼还在不断地认识世界,认识的事物从少到多,从模糊到清晰,从认识到理解。每一阶段都是一座里程碑,从人工智能流行之初,达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍,达摩院之计算机视网膜修复工程。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货----------

视觉技术作为人工智能之眼还在不断地认识世界,认识的事物从少到多,从模糊到清晰,从认识到理解。每一阶段都是一座里程碑,从人工智能流行之初,达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍,达摩院之计算机视网膜修复工程。

抠图(matting)-作为计算机视觉理解认识事物的第一步,指的是从图片中精确分割出其中的目标区域,计算机视觉需要从平面,3D等影像中扣出它需要认识的区域并且加以识别,而抠图的精度则是其识别准确度的基础,就像手不是人,车轮不是汽车,云不是天空一样,很好理解。抠图的精度通常要求达到发丝级处理精度,而传统的抠图,需要输入额外的语义信息作约束,通常为trimap(前景、背景和不确定区域),且交互成本都极大。

image.png

达摩院又是如何走出从优化到应用的这一质变的过程?

蜕变

传统抠图是交互式抠图,要求输入trimap作为约束,即已包含有较准备的语义信息,如下图2(b)所示,所需估计的是trimap中的灰色区域。对于无交互的人像抠图,则是直接从输入图像中不带任何约束地估计正确的语义信息及精准的alpha细节。提升模型效果的一个重大因素即大量精准标注的训练数据,如果训练数据不充分或分布不均,极容易导致估计的语义信息不准从而影响最后抠图结果的精度,如下图2(d)所示。据此,达摩院提出了一种在不降低训练效果前提下最大限度降低数据标注成本的方法,该方法使用了获取成本较低的粗标注数据,以及部分精度较高的标注数据,实验结果表明该模型的可以更好的估计语义信息,同时对发丝细节的处理精度也很好,如下图2(e)所示。

image.png

图2: (a)输入图; (b)trimap(前景、背景、不确定区域); (c)Deep Image Matting结果; (d)不使用粗标注数据结果; (e)同时使用粗标注数据和精确标注数据结果; (f)真实值。

破茧

为了在精确抠图中使用非精确标注的数据,达摩院提出了如下的网络框架。提出的模型框架分为三部分:粗mask估计网络(MPN)、质量统一化网络(QUN),以及精确alpha matte估计网络(MRN)。该部分的设计理念为:复杂问题拆解,先粗分割(MPN)再精细化分割(MRN)。学术界有大量易获取的粗分割数据,可以利用起来。但在实操过程中发现,粗分割数据和精分割数据不一致导致预期GAP很大,故而又设计了质量统一化网络(QUN)。MPN的用途是估计粗语义信息(粗mask),使用粗标注数据和精标注数据一起训练。QUN是质量统一化网络,用以规范粗mask质量,QUN可以统一MPN输出的粗mask质量。MRN网络输入原图和经过QUN规范化后的粗mask,估计精确的alpha matte,使用精确标注数据训练。

image.png

图3:算法框架图

算法框架包括三个部分:

  • MPN,粗mask估计网络;
  • QUN,mask质量规范化网络;
  • MRN,精确alpha matte估计网络

实验结果

Baseline的对比:对比方法包括传统的matting方法以及最新基于神经网络的方法。训练数据中包括一半精标注数据,一半粗标注数据。对比方法(除deeplab)由于算法限制只能使用精标注数据,因而只使用了精标注数据训练。而达摩院的方法分别用只使用精标注数据以及同时使用精标注数据和粗标注数据进行了实验。如下图4结果表明,达摩院的方法在使用了粗标注数据之后,对复杂case的语义信息估计的要更准确,同时细节信息也估计的更好。

image.png

图4: 实验结果对比图

在真实图片结果的测试结果如下:

image.png

图5:真实应用场景下人像抠图的效果

达摩院的方法还可以应用到数据的精细化中,如果给定了粗 mask,输入达摩院的 QUN+MRN 网络,可以直接得到精细化之后的数据,如下图 6 所示,达摩院分别对公开数据集 coco 和 pascal 中的人像数据做了精细化。另外,达摩院也将达摩院的方法应用到其他类目的分割当中去,如商品分割、头像分割等,也取得了不错的效果,如图7所示。

image.png

图 6: 粗标注数据用达摩院网络进行 refine 后的结果

image.png

图 7: 其他场景的分割效果

化蝶

当一个技术在精度上有了质的提升,并且解决了成本问题,那么它就达到了应用的门槛,达摩院将上述方法拓展到了商品、动物、汽车等行业做主体分割,并将技术落地成应用遍布市场,单阿里巴巴集团内已覆盖 9 大 BU(优酷、淘宝、天猫、CBU/ICBU、阿里健康、Lazada、视频云、钉钉、支付宝)9 大 BU,鲁班场景的商品抠图转化率高达 80%+。

阿里云视觉 AI 开发者创意应用赛向社会各界免费开放所有视觉 AI 技术接口,如人像分割、商品分割、头像抠图等。开发者可以任意使用达摩院的技术打磨自己的产品,或者将自己的产品在大赛中展出,作为主办方,阿里云将会为优秀的作品对接创业资源和孵化环境,更有总计近百万的奖金和奖品等你来拿。

体验地址:https://vision.aliyun.com/experience

大赛平台:https://developer.aliyun.com/ai/activity/viapi?spm=a211p3.14921014.J_2252694630.5.514a46a07ZMiqM

image.png

原文链接:https://developer.aliyun.com/article/763807?spm=a2c6h.12873581.0.dArticle763807.ffca3993zTuF2O&groupCode=viapi

目录
相关文章
|
1月前
|
Java 程序员 C#
静态构造方法解析,Java新手必看技能
静态构造方法解析,Java新手必看技能
9 0
|
3月前
|
Java 数据库连接 数据库
事务管理解析:掌握Spring事务的必备技能!
事务管理解析:掌握Spring事务的必备技能!
|
4月前
|
数据采集 存储 JavaScript
提升数据采集技能:用 Axios 实现的 Twitter 视频下载器全面解析
Twitter上的视频内容丰富多样,涵盖了新闻、娱乐、教育、体育等各个领域。这些视频内容对于数据科学家来说,是一种有价值的数据形式,可以用于进行内容分析、情感分析、话题挖掘、事件检测等多种任务。然而,Twitter标准API并没有提供直接下载视频的功能,这给数据采集带来了一定的困难。为了克服这一挑战,我们将使用Axios库,结合代理IP技术,构建一个高效的视频下载器。
提升数据采集技能:用 Axios 实现的 Twitter 视频下载器全面解析
|
9月前
|
开发框架 运维 Kubernetes
【参赛送好礼】2023 云原生编程挑战赛·赛道 3 赛题解析助您快速 get 参赛技能
【参赛送好礼】2023 云原生编程挑战赛·赛道 3 赛题解析助您快速 get 参赛技能
蓝桥杯之单片机学习(十四)——基础技能综合实训案例解析
蓝桥杯之单片机学习(十四)——基础技能综合实训案例解析
221 0
蓝桥杯之单片机学习(十四)——基础技能综合实训案例解析
|
安全 前端开发 网络安全
2021年江苏省职业院校技能大赛中职 网络信息安全赛项试卷--web安全渗透测试解析
2021年江苏省职业院校技能大赛中职 网络信息安全赛项试卷--web安全渗透测试解析
195 0
2021年江苏省职业院校技能大赛中职 网络信息安全赛项试卷--web安全渗透测试解析
|
机器学习/深度学习 运维 分布式计算
【X先生】深度解析Python相关的10个岗位详细信息,一文读懂你到底该学些什么必要技能?(二)
【X先生】深度解析Python相关的10个岗位详细信息,一文读懂你到底该学些什么必要技能?(二)
215 0
【X先生】深度解析Python相关的10个岗位详细信息,一文读懂你到底该学些什么必要技能?(二)
|
自然语言处理 网络协议 Dubbo
干货|接口测试必备技能-常见接口协议解析
干货|接口测试必备技能-常见接口协议解析
|
自然语言处理 网络协议 架构师
干货|接口测试必备技能-常见接口协议解析
服务与服务之间传递数据包,往往会因为不同的应用场景,使用不同的通讯协议进行传递。比如网站的访问,常常会使用 HTTP 协议进行传递,文件传输使用 FTP,邮件传递使用 SMTP。上述的三种类型的协议都处于网络模型中的应用层。除了应用层的常用协议之外,对于传输层的 TCP、UDP 协议,以及 Restful 架构风格、RPC 协议等等基础网络知识要有一定的了解和认知。 ## 网络协议介绍 在
|
自然语言处理 网络协议 架构师
干货|接口测试必备技能-常见接口协议解析
服务与服务之间传递数据包,往往会因为不同的应用场景,使用不同的通讯协议进行传递。比如网站的访问,常常会使用 HTTP 协议进行传递,文件传输使用 FTP,邮件传递使用 SMTP。上述的三种类型的协议都处于网络模型中的应用层。除了应用层的常用协议之外,对于传输层的 TCP、UDP 协议,以及 Restful 架构风格、RPC 协议等等基础网络知识要有一定的了解和认知。 ## 网络协议介绍 在

推荐镜像

更多