图普科技工程师：Mask R-CNN的理论创新会带来怎样的可能性？-阿里云开发者社区

图普科技工程师：Mask R-CNN的理论创新会带来怎样的可能性？

2017-08-01 1313

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

图普科技工程师：Mask R-CNN的理论创新会带来怎样的可能性？

melmcgowan

上周，雷锋网 AI 科技评论报道了 Facebook 实验室出炉的新论文《Mask R-CNN》，第一作者何恺明带领团队提出了一种名为「Mask R-CNN」的目标实例分割框架。研究显示，该框架相比传统的操作方法更佳简单灵活。

论文地址：https://arxiv.org/abs/1703.06870

如果对物体识别和分割技术有所了解的读者们，可能对这个流程并不陌生。传统的物体识别和图像语义分割技术目前集中于运用 Fast/Faster R－CNN 和全卷积网络（FCN）框架等方法，上述概念的优点非常明显：

1. 直观

2. 训练和推断速度快

3. 灵活性和鲁棒性好

不过如雷锋网在此前文章中提及的一样，目标分割的难点在于涉及两个任务：

1. 用物体识别技术识别物体，并用边界框表示出物体边界；

2. 用语义分割给像素分类，但不区分不同的对象实例。

图普科技的工程师告诉雷锋网，「本篇论文的创新点在于作者在 Faster R-CNN 的基础上，只增加了一条对计算资源要求很小的分支，就把原来只用在物体检测任务上的技术应用到物体分割技术上。」

图普科技工程师：Mask R-CNN的理论创新会带来怎样的可能性？

Mask R-CNN 框架

Mask R-CNN 作为 Faster R-CNN 的扩展形式，主要的任务流程如下：

1. 首先检测出图片中可能存在物体的区间，得到多个候选框；

2. 用一条子神经网络分支预测：

每个框内的物体类别

物体在候选框里的矩形范围（横坐标纵坐标，宽，高）

3. 用另外一条神经网络分支对每个候选框预测候选框中哪些像素是属于该物体的。

那么，这样的改进能够起到怎样的作用呢？好处自然非常明显。

首先是适用性强。Mask R-CNN 的框架非常通用灵活，只需要经过少量修改，便能够推广到很多的任务上。

其次是更好地利用不同任务的监督数据。图普科技工程师表示，「以前是检测任务只能利用检测的数据，分割任务只能利用到分割的数据，现在 Mask R-CNN 能同时用上检测，分割等数据，同时训练检测，分割等任务，」AI 科技评论从论文的实验中了解到，任务都能达到业界标杆的效果。

在论文中，Mask R-CNN 在 COCO 数据集上表现良好，具体实验结果可以参考AI科技评论的此前文章。那么它是否能延展到更大的范围呢？图普科技工程师对此则一分为二地看待，他认为短期内在个人领域还无法看到直接应用，不过在云端厂商和科研工作上，由于它良好的表现性能和实用性，的确可以在很多地方获得大规模应用。

既然是 Facebook 研究院提出的新成果，雷锋网自然也非常关心 Mask R-CNN 未来可能在 Facebook 上的应用场景。根据图普科技工程师的设想，可能会有以下三个方向：

首先是图片自动打标签的功能。基于 Facebook 的社交属性，它识别人脸的能力已经越来越强，但「读懂图片」的能力还在不断探索中。Mask R-CNN 兼具物体识别并用语义分割给像素分类的能力，的确很有可能先在自家的社交网络上获得大范围应用。

其次是 AR 技术。比如说，在镜头中的沙发上显示一个 3D 虚拟美女，那么如何判断沙发的位置和角度，并据此调整美女的坐姿，如果要做到「毫无违和感」，同样需要对图像的边界进行界定。

还有一点是 VR 技术。「在游戏领域，可以采用 Mask R-CNN 精确捕捉人的动作，让玩家在能在虚拟世界自由扮演角色。」

虽然现在讨论应用还有些早，不过 AI 科技评论依然期待 FAIR 在未来能有更多的理论创新，并能够早日应用于我们的生活当中。

雷锋网(公众号：雷锋网)推荐文章：

秒懂！何凯明的深度残差网络PPT是这样的|ICML2016 tutorial

雾霾太重？深度神经网络教你如何图像去雾

本文作者：奕欣

本文转自雷锋网禁止二次转载，原文链接