一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(中)

简介: 本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。

ViT发展趋势综述



当论文的系统学与这些模型的时间线匹配时,我们可以清楚地跟踪Transformer用于图像分类的发展趋势(图1)。作为一种自注意机制,视觉Transformer主要根据NLP中的朴素结构(ViT[29]和iGPT[68])或CV中基于注意力的模型(VTs[51]和BoTNet[52])进行重新设计。


然后,许多方法开始将CNN的层次结构或深层结构扩展到ViT。T2T-ViT[63]、PVT[41]、CvT[36]和PiT[64]都有一个动机,即将分层结构迁移到Transformer中,但它们实现的下采样方式不同。CaiT[42]、Diverse Patch[67]、DeepViT[66]和Refiner[37]关注deep Transformer中的问题。此外,一些方法转向内部组件以进一步增强先前Transformer的图像处理能力,即位置编码[56]、[179]、[180]、MHSA[28]和MLP[167]。

下一波Transformer是局部范式。其中大多数通过引入局部注意机制[35]、[44]、[59]、[60]或卷积[53]–[55]将局部性引入Transformer。如今,最新监督Transformer正在探索结构组合[39]、[58]和scaling laws[38]、[181]。除了有监督的Transformer,自监督学习在ViT[68]–[70]、[72]–[74]中占据了很大一部分。然而,目前尚不清楚哪些任务和结构对CV中的自监督Transformer更有利。


关于备选方案的简要讨论:在ViT的开发过程中,最常见的问题是ViT能否完全取代传统的卷积。通过回顾过去一年的性能改进历史,这里没有任何相对劣势的迹象。ViT已经从一个纯粹的结构回归到一个混合的形式,而全局信息已经逐渐回归到带有局部bias的混合阶段。尽管ViT可以等同于CNN,甚至具有更好的建模能力,但这种简单有效的卷积运算足以处理浅层中的局部性和语义特征。未来,两者结合的精神将推动图像分类取得更多突破。


检测Transformer



在本节中,论文将回顾用于目标检测的ViT,它可以分为两个部分:Transformer Neck和Transformer Backbone。对于neck,论文主要关注为Transformer结构指定的一种新表示,称为object query,即一组可学习的参数等价地聚集了全局特征。最近的变体试图在收敛加速或性能改进方面解决最优融合范式。除了专门为检测任务设计的neck外,一部分主干检测器还考虑了特定的策略。最后,论文对它们进行了评估,并分析了这些检测器的一些潜在方法。


Transformer Neck


首先回顾DETR[30]和Pix2seq[75],它们是最初的Transformer检测器,重新定义了两种不同的目标检测范式。随后,论文主要关注基于DETR的变体,从五个方面改进了Transformer检测器的准确性和收敛性:稀疏注意力、空间先验、结构重新设计、分配优化和预训练模型。


原始检测器:DETR[30]是第一个端到端Transformer检测器,它消除了手工设计的表示[182]-[185]和非最大抑制(NMS)后处理,这将目标检测重新定义为集合预测问题。详细地说,一小组可学习的位置编码,称为object query,被并行馈送到Transformer解码器中,以从图像特征中聚合实例信息。然后,预测头直接从解码器的输出query产生检测结果。在训练过程中,在预测目标和GT之间使用二分匹配策略,以识别一对一的标签分配,从而在没有NMS的情况下消除推理时的冗余预测。在反向传播中,匈牙利损失包括所有分类结果的对数似然损失和所有匹配对的box损失。


总之,DETR为端到端目标检测提供了一种新的范例。object query在与图像特征交互期间逐渐学习实例表示。二分匹配允许直接的集合预测很容易适应一对一的标签分配,从而消除了传统的后处理。DETR在COCO基准上实现了具有竞争力的性能,但在小目标上存在收敛速度慢和性能差的问题。


另一项开创性工作是Pix2seq[75],将通用目标检测视为一项语言建模任务。给定一个图像输入,执行一个vanilla sequential Transformer来提取特征并自动回归生成一系列目标描述(即类标签和边界框)。这种简化但更复杂的图像caption方法是在这样的假设下得出的,即如果模型同时了解目标的位置和标签,则可以教导其生成具有指定序列的描述[75]。与DETR相比,Pix2seq在小目标上获得了更好的结果。如何将这两种概念结合起来值得进一步考虑。


稀疏注意力:在DETR中,query和特征图之间的密集交互耗费了难以承受的资源,并减缓了DETR的收敛速度。因此,最近的努力旨在设计依赖于数据的稀疏注意力来解决这些问题。


继[186]之后,Zhu等人开发了Deformable DETR,以通过多尺度deformable attention显著改善训练收敛性和检测性能[76]。与原始DETR相比,deformable attention模块仅对一小部分关键点进行采样,以进行全特征聚合。这种稀疏注意力可以很容易地扩展到多尺度特征融合,而无需FPN[187]的帮助,因此称为多尺度可定义注意力(MSDA),如图10所示。其他相关算法ACT[77]、PnP[78]、Sparse DETR[79]可以参考具体论文。


640.png


空间先验:与由内容和几何特征[182]、[188]直接生成的anchor或其他表示不同,object query通过随机初始化隐式建模空间信息,这与边界框弱相关。空间先验应用的主流是具有经验空间信息的一阶段检测器和具有几何坐标初始化或感兴趣区域(RoI)特征的两阶段检测器。一阶段相关算法有SMCA[80]、Conditional DETR[81]、Anchor DETR[82]、DAB-DETR[83]。二阶段相关算法有Efficient DETR[84]、Dynamic DETR[85]。


结构重新设计:除了关注交叉注意力的修改之外,一些工作重新设计了仅编码器的结构,以直接避免解码器的问题。TSP[86]继承了集合预测[30]的思想,并去除了解码器和object query以加速收敛。这种仅编码器的DETR重用先前的表示[182]、[188],并生成一组固定大小的感兴趣特征(FoI)[188]或proposal[182],这些proposal随后被馈送到Transformer编码器。此外,匹配蒸馏被应用于解决二分匹配的不稳定性,特别是在早期训练阶段。Fang等人[87]将DETR的编码器-解码器 neck和ViT的仅编码器主干合并为仅编码器检测器,并开发了YOLOS,一种纯序列到序列转换器,以统一分类和检测任务。它继承了ViT的结构,并用固定大小的可学习检测token替换了单个类token。这些目标token首先在分类任务上进行预训练,然后在检测基准上进行微调。


二分匹配优化:在DETR[30]中,二分匹配策略迫使预测结果在训练期间完成一对一的标签分配。这样的训练策略简化了检测管道,并在无需NMS帮助的情况下直接构建端到端系统。为了深入了解端到端检测器的功效,Sun等人致力于探索一对一预测的理论观点[192]。基于多次消融和理论分析,他们得出结论,一对一匹配策略的分类成本是显著避免重复预测的关键因素。即便如此,DETR仍面临着由二分匹配引起的多重问题。Li等人[90]利用denoisingDETR(DN-DETR)来减轻二部分匹配的不稳定性。具体地说,一系列有轻微扰动的目标应该重建它们的真实坐标和类。去噪(或重建)部分的主要成分是防止匹配部分和噪声部分之间信息泄漏的注意力掩码,以及指示扰动的指定标签嵌入。其他工作还有DINO[91]。


预训练:灵感来自预训练的语言Transformer[3],[5],相关工作有UP-DETR[88]、FP-DETR[89]。


Transformer Backbone


前文已经回顾了许多基于Transformer的图像分类主干[29]、[40]。这些主干可以很容易地并入各种框架(例如,Mask R-CNN[189]、RetinaNet[184]、DETR[30]等),以执行密集预测任务。例如,像PVT[41]、[65]这样的分层结构将ViT构造为一个高分辨率到低分辨率的过程,以学习多尺度特征。局部增强结构将主干构建为局部到全局的组合,可以有效地提取短距离和长距离视觉相关性,并避免二次计算开销,如Swin Transformer[35]、ViL[61]和Focal Transformer[62]。表III包括密集预测任务的这些模型的更详细比较。除了通用Transformer主干,特征金字塔Transformer(FPT)[92]通过使用self-attention、自上而下的cross-attention和自底向上的cross channel attention,结合了空间和尺度的特性。继[193]之后,HRFormer[93]向Transformer介绍了多分辨率的优点以及非重叠的局部self-attention。HRViT[94]重新设计了异质分支和十字形注意力模块。


640.png


讨论


论文在表II中总结了Transformer neck检测器的五个部分,密集预测任务的Transformer backbone的更多细节参见表III。大多数neck提升集中在以下五个方面:


  • 1)提出了稀疏注意力模型和评分网络,以解决冗余特征交互问题。这些方法可以显著降低计算成本并加速模型收敛;
  • 2)将显式空间先验分解为所选特征初始化和由可学习参数提取的位置信息,将使检测器能够精确预测结果;
  • 3)在Transformer解码器中扩展了多尺度特征和逐层更新,用于小目标细化;
  • 4)改进的二分匹配策略有利于避免冗余预测以及实现端到端目标检测;
  • 5)仅编码器结构减少了整个Transformer堆栈层,但过度增加了FLOPs,而编码器-解码器结构是FLOPs和参数之间的良好权衡,但更深的解码器层可能会导致长时间训练过程和过度平滑的问题。


此外,有许多Transformer主干用于改进分类性能,但很少有针对密集预测任务的工作。未来,论文预计Transformer主干将与深度高分辨率网络合作,以解决密集预测任务。

640.png


分割Transformer



Patch-Based 和 Query-Based Transformer是分割的两种主要应用方式。后者可以进一步细分为Object Query 和 Mask Embedding两类。


Patch-Based Transformer


由于感受野扩展策略[194],CNN需要多个解码器堆栈来将高级特征映射到原始空间分辨率。相反,基于patch的Transformer由于其全局建模能力和分辨率不变性,可以很容易地与用于分割mask预测的简单解码器结合。Zheng等人扩展了用于语义分割任务的ViT[29],并通过使用解码器的三种方式来实现逐像素分类,提出了SEgmentation TRansformer(SETR)[95]:naive上采样(naive)、渐进上采样(PUP)和多级特征聚合(MLA)。SETR展示了ViT用于分割任务的可行性,但它也带来了不可接受的额外GPU开销。TransUNet[96]是第一个用于医学图像分割的方法。形式上,它可以被视为带有MLA解码器的SETR的变体[95],或者是U-Net[195]和Transformer的混合模型。由于Transformer编码器强大的全局建模能力,Segformer[97]设计了一个只有四个MLP层的轻量级解码器。当使用多种损坏类型的图像进行测试时,Segformer显示出比CNN更好的性能和更强的鲁棒性。


Query-Based Transformer


Query embedding是一组从图像输入中逐渐学习的临时语义/实例表示。与patch嵌入不同,query可以更“公平”地集成来自特征的信息,并自然地与集合预测损失结合[30],用于去除后处理。现有的基于query的模型可以分为两类。一种是由检测和分割任务同时驱动的(称为object queries)。另一个仅由分割任务(称为mask embeddings)监督。


Object Queries:基于object queries的方法有三种训练方式(图11)。如图11(a)所示的Panoptic DETR[30]。图11(b)所示的Cell-DETR[98]和VisTR[99],以及如图11(c)所示的QueryInst[100]

640.png


Mask Embeddings:另一个框架使用query直接预测掩码,论文将这种基于掩码的学习查询称为mask embedding。与object queries不同,mask embedding仅由分割任务监督。如图11(d)所示,两个不相交的query集被并行用于不同的任务,box学习被视为进一步增强的辅助损失,相关算法有ISTR[101]、SOLQ[102]。对于语义和box-free实例分割,一系列基于query的Transformer直接预测掩码,而不需要框分支的帮助(图11(e)),相关算法如Max-DeepLab[31]、Segmenter[103]、Maskformer[104]等。

640.png


讨论


论文根据三个不同的任务总结了上述Transformer。表IV(a)侧重于ADE20K(170类)。可以表明,当在具有大量类的数据集上进行训练时,ViT的分割性能显著提高。表IV(b)侧重于实例分割的COCO测试数据集。显然,在分割和检测任务中,带有掩模嵌入的ViT超过了大多数主流模型。然而,APbox和APseg之间存在巨大的性能差距。通过级联框架,QueryInst[100]在各种Transformer模型中实现了SOTA。将ViT与混合任务级联结构相结合,值得进一步研究。表IV(c)侧重于全景分割。Max-DeepLab[31]通常通过掩码预测形式解决全景分割任务中的前景和背景问题,而Maskformer[104]成功地将这种格式用于语义分割,并将语义和实例分割任务统一为一个模型。基于它们在全景分割领域的表现,我们可以得出结论,ViT可以将多个分割任务统一到一个box-free框架中,并进行掩模预测。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
225 1
|
11月前
|
传感器 机器学习/深度学习 算法
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效
167 0
|
11月前
|
机器学习/深度学习 编解码 计算机视觉
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!
310 0
|
11月前
|
机器学习/深度学习 人工智能 数据可视化
重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法
重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法
1047 0
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(上)
|
机器学习/深度学习 传感器 编解码
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(下)
本综述根据三个基本的CV任务和不同的数据流类型,全面调查了100多种不同的视觉Transformer,并提出了一种分类法,根据其动机、结构和应用场景来组织代表性方法。由于它们在训练设置和专用视觉任务上的差异,论文还评估并比较了不同配置下的所有现有视觉Transformer。此外,论文还揭示了一系列重要但尚未开发的方面,这些方面可能使此类视觉Transformer能够从众多架构中脱颖而出,例如,松散的高级语义嵌入,以弥合视觉Transformer与序列式之间的差距。最后,提出了未来有前景的研究方向。
一文详解视觉Transformer在CV中的现状、趋势和未来方向(分类/检测/分割/多传感器融合)(下)
|
机器学习/深度学习 编解码 人工智能
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(上)
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(上)
|
机器学习/深度学习 编解码 人工智能
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
90+目标跟踪算法&九大benchmark!基于判别滤波器和孪生网络的视觉目标跟踪:综述与展望(下)
|
机器学习/深度学习 传感器 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
|
机器学习/深度学习 人工智能 算法
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(中)