ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 本文提出了一种新的端到端倒金字塔多任务Transformer算法(InvPT),以在统一的框架中同时对多个空间位置和多任务进行建模。

原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA



论文标题:Inverted Pyramid Multi-task Transformer for Dense Scene Understanding


1摘要



本文提出了一种新的端到端倒金字塔多任务Transformer算法(InvPT),以在统一的框架中同时对多个空间位置和多任务进行建模。据称,本文是第一篇探索设计用于多任务密集预测以进行场景理解的Transformer算法。此外,更高的空间分辨率已经被证明对密集预测任务有益,而由于大空间尺寸的复杂性,现有基于Transformer的算法搭建更大分辨率的网络是十分具有挑战性的。InvPT 提出了一个高效的 UP-Transformer 模块,以逐渐增加的分辨率学习多任务特征交互,它还结合了高效的自注意力信息传递和多尺度特征聚合,以输出任务特定的高分辨率预测结果。相比于以往单任务的SOTA模型,InvPT在NYUD-v2数据集上取得了2.59%的相对提升,在PASCAL-Context数据集上取得了1.76%的相对提升。

640.png


2方法



640.png

InvPT的整体框架如上图所示,包含三个核心模块:


  • 多任务共享的InvPT Transformer encoder:首先,Transformer encoder从所有任务的输入图像中提取视觉特征,本文尝试使用ViT[14]和Swin Transformer[22]作为特征提取的主干;
  • 任务相关的preliminary decoders:然后,preliminary decoder生成各个特定任务的特征和初步预测,并使用真值监督训练;
  • InvPT Transformer decoder:最后,每个任务的特定特征和初步预测组合为一个序列,输入至InvPT Transformer decoder中,以学习在全局空间和任务上下文中生成细化的特定任务特征,细化后的特征进一步生成最终的预测结果。

前两点比较好理解,下面着重讲解InvPT Transformer Decoder。


InvPT Transformer Decoder via UP-Transformer Block


当空间分辨率较大时,全局自注意力的计算量就会十分恐怖,因此很多视觉Transformer模型都会大幅降低特征图的分辨率[14,46,44],并输出低空间分辨率的特征。然而特征图的分辨率越大,模型保存的局部细节就会越多,因此分辨率的大小是密集预测问题的一大关键因素。另一点是,不同尺度的特征图可以对不同层次的视觉信息进行建模[42,50],因此对多个任务在多个尺度上互相学习是有益的。出于以上动机,本文设计了一个逐步扩大分辨率的Transformer Decoder,称之为InvPT decoder,其由高效的UP-Transformer 模块、跨尺度自注意力信息传递和多尺度编码器模块组成。


Main Structure:UP-Transformer block的结构如下图所示。InvPT解码器包含三个阶段,每个阶段都是设计的UP-Transformer模块,用来计算不同空间分辨率下的self-attention并更新特征图。InvPT解码器的第一阶段(即阶段0)在 InvPT编码器的输出分辨率(即 H0 × W0)下学习跨任务自注意力,而接下来的两个阶段逐次恢复特征图的空间分辨率,并在更高的分辨率下计算跨任务的自注意力。后两个阶段(即阶段1和阶段2)使用本文提出的 UP-Transformer模块以更高的分辨率细化特征图,并实现跨尺度自注意力的传播,以及来自InvPT Transformer encoder的多尺度特征聚合。


640.png


Task-Specific Reshaping and Upsampling:Transformer 的计算模块通常对2D的feature-token序列进行操作,特征度的空间结构被分解,而空间结构对密集任务而言至关重要,基于对空间结构的考量,直接对特征序列进行上采样并非易事。另一个问题是InvPT解码器的输入特征包含多个不同的任务特定特征,所以需要对每个任务分别执行特征上采样和细化,以避免其他任务破坏当前任务的特征。为了解决上述问题,本文为InvPT解码器设计了一个任务特定的reshaping和upsampling模块,即Reshape&UP模块,如上图(b)和下图所示。Reshape&UP模块对每个任务的特征进行单独操作,双线性插值后分辨率扩大两倍,进一步经过Conv-BN-Relu等操作进行特征融合和通道降维,最后再拼接各个任务的特征。


640.png


Multi-task UP-Transformer Block:多任务UP-Transformer模块如上图所示,在阶段1和阶段2中使用,并学习逐层增加多任务特征的空间分辨率,并进行特征交互和以全局方式细化所有任务的特征。由于该模块在上采样后的特征图上计算全局自注意力,内存占用会非常大,因此本文首先减小了Q/K/V矩阵的大小,以进行自注意力计算[44,46]。


Cross-Scale Self-Attention Message Passing:为了使 InvPT 解码器能够更有效地对不同尺度的跨任务交互进行建模,本文通过如下方式将上一个阶段的信息传递至当前阶段。

640.png


得到当前阶段的注意力图后,再通过Reshape&UP操作进行细化和上采样,进而得到最终的多任务特征,过程如下所示:

640.png


Efficient Multi-Scale Encoder Feature Aggregation:对于密集场景理解,一些基本任务(例如边界检测)需要较低级别的视觉特征。但是在Transformer 中有效地使用多尺度特征是很棘手的,因为Transformer在图像分辨率上具有二次计算复杂度,通常只在小分辨率特征图上操作。逐渐增加特征图的大小并结合多尺度特征对GPU内存来说非常具有挑战性。因此,本文设计了一种高效且有效的多尺度编码特征聚合(EFA)策略。结构如上图所示。


3实验结果



实验结果和可视化如下所示,相比于基线,InvPT在多个任务上均有明显的提升,NYUD数据集上整体提升2.59%,在PASCAL上整体提升1.76%。


640.png




相关文章
|
2月前
|
计算机视觉
论文介绍:Panoptic-DeepLab——一种简单、强大且快速的自下而上全景分割基线
【5月更文挑战第22天】Panoptic-DeepLab是UIUC和Google Research合作开发的一种高效全景分割基线,采用双ASPP和双解码器设计,优化语义和实例分割。在Cityscapes、Mapillary Vistas和COCO数据集上表现优秀,同时保持接近实时的速度。其简洁设计仅需三个损失函数,具有高通用性和可扩展性。然而,仍面临尺度变化、实例分割等挑战,需要进一步优化。[链接](https://arxiv.org/abs/1911.10194)
23 0
|
2月前
|
机器学习/深度学习 编解码 数据可视化
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
【论文精选】TPAMI2020 - PFENet_先验引导的特征富集网络_小样本语义分割
|
2月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
168 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习 存储 算法
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
优于GNN嵌入基线,阿尔伯塔大学等用RL做图关系推理:关系预测任务新SOTA
|
机器学习/深度学习 编解码 自动驾驶
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
281 0
|
机器学习/深度学习 人工智能 算法
有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA
有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA
137 0
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
215 0
|
机器学习/深度学习 人工智能 自然语言处理
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构
438 0