达摩院探访，机器视觉之发丝级抠图技能解析？

2020-06-04 1523

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，图像资源包5000点

简介： 视觉技术作为人工智能之眼还在不断地认识世界，认识的事物从少到多，从模糊到清晰，从认识到理解。每一阶段都是一座里程碑，从人工智能流行之初，达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍，达摩院之计算机视网膜修复工程。

文章结尾有2020阿里云峰会介绍，不要错过哟~2020云峰会传送门
视觉技术作为人工智能之眼还在不断地认识世界，认识的事物从少到多，从模糊到清晰，从认识到理解。每一阶段都是一座里程碑，从人工智能流行之初，达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍，达摩院之计算机视网膜修复工程。
抠图（matting）-作为计算机视觉理解认识事物的第一步，指的是从图片中精确分割出其中的目标区域，计算机视觉需要从平面，3D等影像中扣出它需要认识的区域并且加以识别，而抠图的精度则是其识别准确度的基础，就像手不是人，车轮不是汽车，云不是天空一样，很好理解。抠图的精度通常要求达到发丝级处理精度，而传统的抠图，需要输入额外的语义信息作约束，通常为trimap（前景、背景和不确定区域），且交互成本都极大。

达摩院又是如何走出从优化到应用的这一质变的过程？

蜕变

传统抠图是交互式抠图，要求输入trimap作为约束，即已包含有较准备的语义信息，如下图2（b）所示，所需估计的是trimap中的灰色区域。对于无交互的人像抠图，则是直接从输入图像中不带任何约束地估计正确的语义信息及精准的alpha细节。提升模型效果的一个重大因素即大量精准标注的训练数据，如果训练数据不充分或分布不均，极容易导致估计的语义信息不准从而影响最后抠图结果的精度，如下图2（d）所示。据此，达摩院提出了一种在不降低训练效果前提下最大限度降低数据标注成本的方法，该方法使用了获取成本较低的粗标注数据，以及部分精度较高的标注数据，实验结果表明该模型的可以更好的估计语义信息，同时对发丝细节的处理精度也很好，如下图2（e）所示。

图2:（a）输入图；（b）trimap（前景、背景、不确定区域）；（c）Deep Image Matting结果；（d）不使用粗标注数据结果；（e）同时使用粗标注数据和精确标注数据结果；（f）真实值。

破茧

为了在精确抠图中使用非精确标注的数据，达摩院提出了如下的网络框架。提出的模型框架分为三部分：粗mask估计网络（MPN）、质量统一化网络（QUN），以及精确alpha matte估计网络（MRN）。该部分的设计理念为：复杂问题拆解，先粗分割（MPN）再精细化分割（MRN）。学术界有大量易获取的粗分割数据，可以利用起来。但在实操过程中发现，粗分割数据和精分割数据不一致导致预期GAP很大，故而又设计了质量统一化网络（QUN）。MPN的用途是估计粗语义信息（粗mask），使用粗标注数据和精标注数据一起训练。QUN是质量统一化网络，用以规范粗mask质量，QUN可以统一MPN输出的粗mask质量。MRN网络输入原图和经过QUN规范化后的粗mask，估计精确的alpha matte，使用精确标注数据训练。

图3:算法框架图。算法框架包括三个部分：MPN，粗mask估计网络；QUN，mask质量规范化网络；MRN，精确alpha matte估计网络
实验结果
Baseline的对比：对比方法包括传统的matting方法以及最新基于神经网络的方法。训练数据中包括一半精标注数据，一半粗标注数据。对比方法（除deeplab）由于算法限制只能使用精标注数据，因而只使用了精标注数据训练。而达摩院的方法分别用只使用精标注数据以及同时使用精标注数据和粗标注数据进行了实验。如下图4结果表明，达摩院的方法在使用了粗标注数据之后，对复杂case的语义信息估计的要更准确，同时细节信息也估计的更好。

图4: 实验结果对比图

在真实图片结果的测试结果如下：

图5:真实应用场景下人像抠图的效果

达摩院的方法还可以应用到数据的精细化中，如果给定了粗mask，输入达摩院的QUN+MRN网络，可以直接得到精细化之后的数据，如下图6所示，达摩院分别对公开数据集coco和pascal中的人像数据做了精细化。另外，达摩院也将达摩院的方法应用到其他类目的分割当中去，如商品分割、头像分割等，也取得了不错的效果，如图7所示。

图6: 粗标注数据用达摩院网络进行refine后的结果

图7: 其他场景的分割效果

化蝶

当一个技术在精度上有了质的提升，并且解决了成本问题，那么它就达到了应用的门槛，达摩院将上述方法拓展到了商品、动物、汽车等行业做主体分割，并将技术落地成应用遍布市场，单阿里巴巴集团内已覆盖9大BU（优酷、淘宝、天猫、CBU/ICBU、阿里健康、Lazada、视频云、钉钉、支付宝）9大BU，鲁班场景的商品抠图转化率高达80%+。
阿里云视觉AI开发者创意应用赛向社会各界免费开放所有视觉AI技术接口，如人像分割、商品分割、头像抠图等。开发者可以任意使用达摩院的技术打磨自己的产品，或者将自己的产品在大赛中展出，作为主办方，阿里云将会为优秀的作品对接创业资源和孵化环境，更有总计近百万的奖金和奖品等你来拿。
体验地址：https://vision.aliyun.com/experience
大赛平台：https://developer.aliyun.com/ai/activity/viapi?spm=a211p3.14921014.J_2252694630.5.514a46a07ZMiqM
此外，平台将在2020云峰会上重磅发布超百种AI能力，快来扫码观看吧！
视觉智能开放平台峰会预告.jpg

达摩院探访，机器视觉之发丝级抠图技能解析？

蜕变

破茧

化蝶

视觉智能

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像