牛！2位华人博士联手设计Max-DeepLab全景分割流水线，分辨率高达51.3%

2022-01-16 329

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2021年有两名华人学者在CVPR上提出了一种端到端的方法，可以用于全景分割的流水线，将Transformer架构用于计算机视觉任务。

天才少年们的传奇人生

2015年毕业于上海交通大学计算机工程专业的王会宇（Huiyu Wang），在本科期间就一直边做科研助理，边学习，一直保持是班里的Top 5%呢。

先后在加州大学洛杉矶分校（UCLA）就读电子工程的硕士，后来又成功在约翰·霍普金斯大学（JHU）就读计算机科学的博士。

非常优秀的他对于计算机视觉和机器学习都有很深的造诣，现在在Google任职，在CVPR、ICLR、arXiv、ICCV等论坛上发表过很多文章，小编都惊呆了！

本篇二作陈良杰（Jay Chen）在Alan L. Yuille的指导下获得了UCLA的计算机科学博士学位，他的研究兴趣包括计算机视觉、图形模型和机器学习，也是位名副其实的大佬！

自2016年以来就一直在google工作，他说码农的每一天都很兴奋！

MaX-DeepLab是什么？

全景分割（panoptic segmentation) 是一种计算机视觉任务，它将语义分割(semantic segmentation) 和实例分割 (instance segmentation) 统一起来。

语义分割为每个像素分配一个类标签, 实例分割是检测和分割每个对象实例。

全景分割会预测一组不重叠的蒙版及其对应的类别标签，例如，物体的类别：“汽车”，“交通信号灯”，“道路”等，通常会使用多个替代子任务来完成该任务。

之前，DETR（ Detection Transformer) 试图用目标框检测子任务，并简化为端到端的操作来解决其中的一些问题，理论上这在计算效率上更高，并且减少了伪像。

但是，训练过程仍然严重依赖于目标框的检测，这与基于蒙版的全景分割的定义不符。

另一项工作是完全删除目标框，删除整个代理子任务及其关联的模块。

例如，Axial-DeepLab（无目标框的方法）可以预测到实例的逐像素偏移，但是替代子任务会遇到高度变形的挑战，这些对象具有多种形状，例如，下面这张坐在椅子上的狗，它的形状较为复杂。

因此，在2021年CVPR上，两位华人博士发表了这篇文章，提出了一种端到端方法，主要用于全景分割流水线。

作者采用了双通道架构，引入了全球存储路径，可以与任何卷积层直接沟通。

最终的结果是，MaX-DeepLab在没有目标框的情况下显示出了极高的全景质量（PQ），高达7.1％，首次缩小了基于框的方法和无框方法之间的差距。

MaX-DeepLab在COCO测试开发集上达到了51.3％的PQ值，并且测试花的时间也得到很好控制。

该模型会直接预测出一组不重叠的掩码及其对应的语义标签，并通过目标优化输出掩码和类，如下图所示。

和传统Transformer架构相比，作者提出了一种将CNN（卷积神经网络）与Transformer结合起来的双路径框架。具体来说，这是一种使用双路径的转换器，可以读写任何CNN层。

MaX-DeepLab还采用了沙漏式解码器，将多种尺度特征聚合起来，最终以高分辨率输出。

失败多次！终于成功

如下图所示，MaX-DeepLab正确地分割了坐在椅子上的狗，左边第一张图。

Axial-DeepLab的方法发现对象中心偏移，因此做了回归来替代子任务。不过第二张图失败了，因为狗和椅子的中心太此靠近。

DetectoRS的方法用对象的边界框来替代子任务。由于椅子边界框的置信度低，因此它会过滤掉椅子面罩，所以也失败了。

但是将两者相结合的实验，很显眼，成功了！

MaX-DeepLab还可以正确分割重叠的斑马。因为斑马与附近的对象中心有着相似的边界框。

小结：两位华人作者出色的首次展示了全景分割可以实现端到端地训练！

作者研发出PQ型损耗和双路径转换器的MaX -DeepLab，并且在具有挑战性的COCO数据集上实现了最先进的结果。

牛！2位华人博士联手设计Max-DeepLab全景分割流水线，分辨率高达51.3%

天才少年们的传奇人生

MaX-DeepLab是什么？

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

牛！2位华人博士联手设计Max-DeepLab全景分割流水线，分辨率高达51.3%

天才少年们的传奇人生

MaX-DeepLab是什么？

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景