达摩院探访,机器视觉之发丝级抠图技能解析?

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: 视觉技术作为人工智能之眼还在不断地认识世界,认识的事物从少到多,从模糊到清晰,从认识到理解。每一阶段都是一座里程碑,从人工智能流行之初,达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍,达摩院之计算机视网膜修复工程。

  文章结尾有2020阿里云峰会介绍,不要错过哟~2020云峰会传送门
  视觉技术作为人工智能之眼还在不断地认识世界,认识的事物从少到多,从模糊到清晰,从认识到理解。每一阶段都是一座里程碑,从人工智能流行之初,达摩院就对这个人工智能之眼有着深厚的兴趣。本次向大家介绍,达摩院之计算机视网膜修复工程。
  抠图(matting)-作为计算机视觉理解认识事物的第一步,指的是从图片中精确分割出其中的目标区域,计算机视觉需要从平面,3D等影像中扣出它需要认识的区域并且加以识别,而抠图的精度则是其识别准确度的基础,就像手不是人,车轮不是汽车,云不是天空一样,很好理解。抠图的精度通常要求达到发丝级处理精度,而传统的抠图,需要输入额外的语义信息作约束,通常为trimap(前景、背景和不确定区域),且交互成本都极大。
1.png
  达摩院又是如何走出从优化到应用的这一质变的过程?


蜕变

  传统抠图是交互式抠图,要求输入trimap作为约束,即已包含有较准备的语义信息,如下图2(b)所示,所需估计的是trimap中的灰色区域。对于无交互的人像抠图,则是直接从输入图像中不带任何约束地估计正确的语义信息及精准的alpha细节。提升模型效果的一个重大因素即大量精准标注的训练数据,如果训练数据不充分或分布不均,极容易导致估计的语义信息不准从而影响最后抠图结果的精度,如下图2(d)所示。据此,达摩院提出了一种在不降低训练效果前提下最大限度降低数据标注成本的方法,该方法使用了获取成本较低的粗标注数据,以及部分精度较高的标注数据,实验结果表明该模型的可以更好的估计语义信息,同时对发丝细节的处理精度也很好,如下图2(e)所示。
2.png
图2:(a)输入图;(b)trimap(前景、背景、不确定区域);(c)Deep Image Matting结果;(d)不使用粗标注数据结果;(e)同时使用粗标注数据和精确标注数据结果;(f)真实值。


破茧

  为了在精确抠图中使用非精确标注的数据,达摩院提出了如下的网络框架。提出的模型框架分为三部分:粗mask估计网络(MPN)、质量统一化网络(QUN),以及精确alpha matte估计网络(MRN)。该部分的设计理念为:复杂问题拆解,先粗分割(MPN)再精细化分割(MRN)。学术界有大量易获取的粗分割数据,可以利用起来。但在实操过程中发现,粗分割数据和精分割数据不一致导致预期GAP很大,故而又设计了质量统一化网络(QUN)。MPN的用途是估计粗语义信息(粗mask),使用粗标注数据和精标注数据一起训练。QUN是质量统一化网络,用以规范粗mask质量,QUN可以统一MPN输出的粗mask质量。MRN网络输入原图和经过QUN规范化后的粗mask,估计精确的alpha matte,使用精确标注数据训练。
3.jpg
图3:算法框架图。算法框架包括三个部分:MPN,粗mask估计网络;QUN,mask质量规范化网络;MRN,精确alpha matte估计网络
实验结果
  Baseline的对比:对比方法包括传统的matting方法以及最新基于神经网络的方法。训练数据中包括一半精标注数据,一半粗标注数据。对比方法(除deeplab)由于算法限制只能使用精标注数据,因而只使用了精标注数据训练。而达摩院的方法分别用只使用精标注数据以及同时使用精标注数据和粗标注数据进行了实验。如下图4结果表明,达摩院的方法在使用了粗标注数据之后,对复杂case的语义信息估计的要更准确,同时细节信息也估计的更好。
4.jpg

图4: 实验结果对比图

  在真实图片结果的测试结果如下:
5.png

图5:真实应用场景下人像抠图的效果

  达摩院的方法还可以应用到数据的精细化中,如果给定了粗mask,输入达摩院的QUN+MRN网络,可以直接得到精细化之后的数据,如下图6所示,达摩院分别对公开数据集coco和pascal中的人像数据做了精细化。另外,达摩院也将达摩院的方法应用到其他类目的分割当中去,如商品分割、头像分割等,也取得了不错的效果,如图7所示。
6.jpg

图6: 粗标注数据用达摩院网络进行refine后的结果


7.png

图7: 其他场景的分割效果


化蝶

  当一个技术在精度上有了质的提升,并且解决了成本问题,那么它就达到了应用的门槛,达摩院将上述方法拓展到了商品、动物、汽车等行业做主体分割,并将技术落地成应用遍布市场,单阿里巴巴集团内已覆盖9大BU(优酷、淘宝、天猫、CBU/ICBU、阿里健康、Lazada、视频云、钉钉、支付宝)9大BU,鲁班场景的商品抠图转化率高达80%+。
  阿里云视觉AI开发者创意应用赛向社会各界免费开放所有视觉AI技术接口,如人像分割、商品分割、头像抠图等。开发者可以任意使用达摩院的技术打磨自己的产品,或者将自己的产品在大赛中展出,作为主办方,阿里云将会为优秀的作品对接创业资源和孵化环境,更有总计近百万的奖金和奖品等你来拿。
体验地址:https://vision.aliyun.com/experience
大赛平台:https://developer.aliyun.com/ai/activity/viapi?spm=a211p3.14921014.J_2252694630.5.514a46a07ZMiqM
此外,平台将在2020云峰会上重磅发布超百种AI能力,快来扫码观看吧!
视觉智能开放平台峰会预告.jpg

相关文章
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
219 1
|
4月前
|
C# 开发者 Windows
震撼发布:全面解析WPF中的打印功能——从基础设置到高级定制,带你一步步实现直接打印文档的完整流程,让你的WPF应用程序瞬间升级,掌握这一技能,轻松应对各种打印需求,彻底告别打印难题!
【8月更文挑战第31天】打印功能在许多WPF应用中不可或缺,尤其在需要生成纸质文档时。WPF提供了强大的打印支持,通过`PrintDialog`等类简化了打印集成。本文将详细介绍如何在WPF应用中实现直接打印文档的功能,并通过具体示例代码展示其实现过程。
404 0
|
6月前
|
前端开发 程序员 UED
全面解析layui:掌握基础知识与实用技能(1. 核心组件与模块 2. 布局与容器 3. 弹出层与提示框;1. 数据表格与数据表单 2. 表单验证与提交 3. 图片轮播与导航菜单)
全面解析layui:掌握基础知识与实用技能(1. 核心组件与模块 2. 布局与容器 3. 弹出层与提示框;1. 数据表格与数据表单 2. 表单验证与提交 3. 图片轮播与导航菜单)
82 0
|
7月前
|
Java 程序员 C#
静态构造方法解析,Java新手必看技能
静态构造方法解析,Java新手必看技能
51 0
|
7月前
|
Java 数据库连接 数据库
事务管理解析:掌握Spring事务的必备技能!
事务管理解析:掌握Spring事务的必备技能!
|
7月前
|
数据采集 存储 JavaScript
提升数据采集技能:用 Axios 实现的 Twitter 视频下载器全面解析
Twitter上的视频内容丰富多样,涵盖了新闻、娱乐、教育、体育等各个领域。这些视频内容对于数据科学家来说,是一种有价值的数据形式,可以用于进行内容分析、情感分析、话题挖掘、事件检测等多种任务。然而,Twitter标准API并没有提供直接下载视频的功能,这给数据采集带来了一定的困难。为了克服这一挑战,我们将使用Axios库,结合代理IP技术,构建一个高效的视频下载器。
160 1
提升数据采集技能:用 Axios 实现的 Twitter 视频下载器全面解析
|
开发框架 运维 Kubernetes
【参赛送好礼】2023 云原生编程挑战赛·赛道 3 赛题解析助您快速 get 参赛技能
【参赛送好礼】2023 云原生编程挑战赛·赛道 3 赛题解析助您快速 get 参赛技能
蓝桥杯之单片机学习(十四)——基础技能综合实训案例解析
蓝桥杯之单片机学习(十四)——基础技能综合实训案例解析
291 0
蓝桥杯之单片机学习(十四)——基础技能综合实训案例解析
|
安全 前端开发 网络安全
2021年江苏省职业院校技能大赛中职 网络信息安全赛项试卷--web安全渗透测试解析
2021年江苏省职业院校技能大赛中职 网络信息安全赛项试卷--web安全渗透测试解析
237 0
2021年江苏省职业院校技能大赛中职 网络信息安全赛项试卷--web安全渗透测试解析
|
机器学习/深度学习 运维 分布式计算
【X先生】深度解析Python相关的10个岗位详细信息,一文读懂你到底该学些什么必要技能?(二)
【X先生】深度解析Python相关的10个岗位详细信息,一文读懂你到底该学些什么必要技能?(二)
402 0
【X先生】深度解析Python相关的10个岗位详细信息,一文读懂你到底该学些什么必要技能?(二)

热门文章

最新文章

推荐镜像

更多
下一篇
DataWorks