牛!2位华人博士联手设计Max-DeepLab全景分割流水线,分辨率高达51.3%

简介: 2021年有两名华人学者在CVPR上提出了一种端到端的方法,可以用于全景分割的流水线,将Transformer架构用于计算机视觉任务。

天才少年们的传奇人生

 

2015年毕业于上海交通大学计算机工程专业的王会宇(Huiyu Wang),在本科期间就一直边做科研助理,边学习,一直保持是班里的Top 5%呢。


先后在加州大学洛杉矶分校(UCLA)就读电子工程的硕士,后来又成功在约翰·霍普金斯大学(JHU)就读计算机科学的博士。

                                               1.jpg

非常优秀的他对于计算机视觉和机器学习都有很深的造诣,现在在Google任职,在CVPR、ICLR、arXiv、ICCV等论坛上发表过很多文章,小编都惊呆了!

 

本篇二作陈良杰(Jay Chen)在Alan L. Yuille的指导下获得了UCLA的计算机科学博士学位,他的研究兴趣包括计算机视觉、图形模型和机器学习,也是位名副其实的大佬!

                                                 2.jpg


自2016年以来就一直在google工作,他说码农的每一天都很兴奋!


MaX-DeepLab是什么?

 

全景分割(panoptic segmentation) 是一种计算机视觉任务,它将语义分割(semantic segmentation) 和实例分割 (instance segmentation) 统一起来。


3.jpg

语义分割为每个像素分配一个类标签, 实例分割是检测和分割每个对象实例。

4.jpg

全景分割会预测一组不重叠的蒙版及其对应的类别标签,例如,物体的类别:“汽车”,“交通信号灯”,“道路”等,通常会使用多个替代子任务来完成该任务。

 

之前,DETR( Detection Transformer) 试图用目标框检测子任务,并简化为端到端的操作来解决其中的一些问题,理论上这在计算效率上更高,并且减少了伪像。

 

但是,训练过程仍然严重依赖于目标框的检测,这与基于蒙版的全景分割的定义不符。

 

另一项工作是完全删除目标框,删除整个代理子任务及其关联的模块。


例如,Axial-DeepLab(无目标框的方法) 可以预测到实例的逐像素偏移,但是替代子任务会遇到高度变形的挑战,这些对象具有多种形状,例如,下面这张坐在椅子上的狗,它的形状较为复杂。

 

5.jpg

因此,在2021年CVPR上,两位华人博士发表了这篇文章,提出了一种端到端方法,主要用于全景分割流水线。

 

作者采用了双通道架构,引入了全球存储路径,可以与任何卷积层直接沟通。

 

最终的结果是,MaX-DeepLab在没有目标框的情况下显示出了极高的全景质量(PQ),高达7.1%,首次缩小了基于框的方法和无框方法之间的差距。


MaX-DeepLab在COCO测试开发集上达到了51.3%的PQ值,并且测试花的时间也得到很好控制。


6.jpg该模型会直接预测出一组不重叠的掩码及其对应的语义标签,并通过目标优化输出掩码和类,如下图所示。

 


7.jpg

和传统Transformer架构相比,作者提出了一种将CNN(卷积神经网络)与Transformer结合起来的双路径框架。具体来说,这是一种使用双路径的转换器,可以读写任何CNN层。

 

MaX-DeepLab还采用了沙漏式解码器,将多种尺度特征聚合起来,最终以高分辨率输出。


8.jpg


失败多次!终于成功


如下图所示,MaX-DeepLab正确地分割了坐在椅子上的狗,左边第一张图。

 

Axial-DeepLab的方法发现对象中心偏移,因此做了回归来替代子任务。不过第二张图失败了,因为狗和椅子的中心太此靠近。

 

DetectoRS的方法用对象的边界框来替代子任务。由于椅子边界框的置信度低,因此它会过滤掉椅子面罩,所以也失败了。

 

但是将两者相结合的实验,很显眼,成功了!

9.jpg


MaX-DeepLab还可以正确分割重叠的斑马。因为斑马与附近的对象中心有着相似的边界框。

10.jpg

小结:两位华人作者出色的首次展示了全景分割可以实现端到端地训练!

 

作者研发出PQ型损耗和双路径转换器的MaX -DeepLab,并且在具有挑战性的COCO数据集上实现了最先进的结果。

相关文章
|
13天前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
29 6
|
4月前
|
编解码 计算机视觉
CVPR 2024 Highlight:比LERF提速199倍!清华哈佛发布LangSplat:三维语义高斯泼溅
【7月更文挑战第8天】清华哈佛联合发布的LangSplat模型以3D语义高斯泼溅技术,比LERF快199倍,提升三维场景语言理解速度与准确性。模型利用3D高斯函数编码语言信息,实现高效交互,同时降低内存需求。然而,依赖高质量训练数据,计算复杂度较高且可解释性有限。[链接](https://arxiv.org/pdf/2312.16084.pdf)**
75 25
|
6月前
|
数据采集 人工智能 编解码
二次元专用超分AI模型APISR:在线可用,入选CVPR
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
148 1
二次元专用超分AI模型APISR:在线可用,入选CVPR
|
机器学习/深度学习 人工智能 算法
速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023(2)
速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023
192 0
|
机器学习/深度学习 算法 自动驾驶
速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023(1)
速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023
189 0
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
341 0
|
机器学习/深度学习 存储 人工智能
超大模型出现后,AI的游戏结束了?Gary Marcus:路走窄了
超大模型出现后,AI的游戏结束了?Gary Marcus:路走窄了
|
机器学习/深度学习 存储 安全
首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022
首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022
187 0
|
机器学习/深度学习 算法 数据可视化
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
136 0