目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(一)

简介: 目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(一)

全卷积检测器放弃一对多匹配,采用一对一匹配策略实现端到端检测,但存在收敛速度慢的问题。在本文中重新审视了这两种匹配方法,发现将一对多匹配带回端到端全卷积检测器有助于模型收敛。

基于这一观察,作者提出了端到端全卷积检测(DATE)的双重匹配。本文的方法在训练期间构造了两个具有一对多和一对一匹配的分支,并通过提供更多监督信号来加快一对一匹配分支的收敛。DATE只使用带有一对一匹配策略的分支进行模型推理,这不会带来推理开销。

实验结果表明,Dual Assignment在OneNet和DeFCN上提供了显著的改进,并加快了模型的收敛速度。

代码:https://github.com/YiqunChen1999/date


1、简介


单阶段目标检测器,例如RetinaNet和FCOS,因其简单性而被社区广泛采用。尽管他们取得了成功,但一对多匹配(o2m)策略使他们依靠非最大抑制(NMS)来消除重复的预测。这种过程使它们对NMS的超参数敏感,并可能导致次优解决方案。

这个问题促使研究人员消除NMS,以实现端到端的完全卷积目标检测。OneNet受到DETR的启发,讨论了端到端检测的原因。通过对匈牙利匹配进行详细的实验,OneNet认识到具有分类成本的一对一匹配(o2o)策略是端到端检测的关键。具体而言,通过考虑分类成本,仅为GT分配一个预测,可以防止其产生冗余预测。

尽管OneNet很简单,并实现了端到端检测,但它存在收敛速度慢的问题。作者的研究表明,OneNet需要比FCOS更多的训练时间来实现具有竞争的性能。结果,在相同的设置下,采用一对一分配策略训练的模型要比采用一对多分配策略的模型差。然而,如上所述,一对多正样本分配策略使得NMS有必要在推断过程中删除重复预测。

基于这些观察结果,我们很自然地会问:我们能在相同的环境下训练出具有竞争力的端到端检测器吗?

image.png

在本文中答案是肯定的。假设OneNet收敛速度较慢的原因是一对一分配策略对特征提取器的监督较弱。具体而言,一对一分配策略提供的正样本比一对多匹配少,导致特征提取器缺乏分类和回归监督信号。上述发现激励作者结合一对一和一对多匹配策略的优势。作者将一对多分配策略重新引入OneNet,并提出了一种双任务分配(DATE)来解决这个问题。

具体来说,如图1所示联合训练一对多匹配和一对一匹配分支。一旦完成训练,只使用一对一正样本分配来保持预测器的训练,以实现端到端检测。

实验结果表明,双重分配策略加快了端到端检测器的收敛速度。经过12和36个Epoch的训练,本文的无NMS DATE可以超越或与基于NMS的同行持平。由于轻量级的一对多匹配分支(例如,只有两个或三个卷积层),在训练过程中几乎不需要额外的计算资源,但在模型推断方面可以显著提高性能。

贡献总结如下:

  1. 提出了一种双分配策略,通过引入更多监督信号来加快端到端全卷积检测器的收敛。
  2. 提出的双重分配策略在训练期间引入了可忽略不计的成本,在推断期间没有开销。
  3. 基于提出的双重分配策略,与基于一对多匹配策略的模型相比,本文简单而有效的DATE实现了具有竞争力的性能或略好的性能。

2、本文方法


image.png

为了克服一对一匹配缺乏监督信号(即很少有正样本)的缺点,作者提出了端到端全卷积检测器(DATE)的双重匹配,如图2所示。在典型的单阶段检测器之后,本文的架构将图像作为输入,并提取多尺度特征用于分类和回归。本文的多尺度特征提取器由主干、特征金字塔网络和两个子网组成。然后,Dual Assignment在训练期间按照特征提取器构造两个分支(Bo2o和Bo2m),并且在推理期间只保留一个分支用于端到端检测。

2.1、Dual Assignment

本文方法的一个重要概念是双重匹配。匹配策略将一个GT分配给一个或多个预测以监督网络。双重匹配策略在训练期间使用不同的样本匹配策略构建了两个分支。第一个分支由Bo2o表示,采用一对一匹配策略进行训练(图1,底部)。第二个名为Bo2m,在训练期间采用一对多匹配政策(图1,顶部)。这些分支将共享的分类特征和回归特征作为输入进行预测。然后,他们的匹配策略将构建(GT、预测)对来计算损失。

优化DATE是一个多目标优化问题。理想情况下希望寻求一种乌托邦解决方案,同时最大限度地减少两个分支的损失。然而,一个解很难同时是不同任务的目标函数的局部极小值。获得帕累托边界的帕累托最优解是一个更常见的选择。

由于多目标优化问题有无限个帕累托解,通常需要做出决定,从中选择一个或一些。理想情况下,优化过程应该反映用户的偏好。最常见的方法之一是权重和方法,它为每个目标函数匹配权重:

image.png

其中和分别是一对一和一对多匹配分支的损失。,分别是和的权重。直觉上,相对较大的权重意味着相应的目标函数比其他函数更重要。例如,在极端情况下,如果将等式(1)中的置为零,则它将退化为只训练一对一分支,而不关心一对多分支,反之亦然。

1、One-to-one Assignment Branch

如图2所示,这个称为的分支由两个卷积层组成,一个用于分类,另一个用于回归。一对一匹配策略将一个GT分配给一个预测,并构建G(GT,预测)对,其中G是一个图像中注释目标的数量。不符合任何GT的预测是负样本。通常,采用匈牙利匹配损失或质量度量作为一对一匹配算法。作者通过遵循OneNet以一对一的匹配来训练这个分支,但使用POTO作为质量度量。通过以下方式监督该分支结构:

image.png

其中、和分别为分类、回归和IoU损失。、和是相应损失的权重。这些权重与OneNet相同。

2、One-to-many Assignment Branch

一对多匹配将一个GT分配给多个预测,并构造N个(GT,预测)对,例如最大IoU匹配策略。通常N>G。主要考虑广泛研究的单阶段检测器RetinaNet和FCOS来构建这个分支()。具体而言,DATE采用了两层RetinaNet卷积层或三层FCOS。通过最小化以下内容来训练该分支:

其中和是FCOS中心度预测的权重和损失函数。其他符号的含义类似于一对一分支。RetinaNet的为0,因为RetinaNet中没有中心度预测。一旦完成训练,将放弃这一分支。权重保持与RetinaNet或FCOS相同。

2.2、Discussion

一对一匹配只提供与GT相同数量的正样本,这小于一对多匹配策略。假设用一对一匹配策略训练的检测器的缓慢收敛问题主要是由于监督信号不足而发生的。由于缺乏足够的正样本,特征提取器可能需要更多的训练迭代来产生用于分类和回归的合适特征。

相反,一对多匹配策略将多个正样本分配给GT。假设,足够数量的正样本减少了更多训练迭代的必要性。然而,一对多匹配策略依赖于NMS来删除重复的预测。

双重任务结合了一对一和一对多任务的优点。一对多匹配分支提供足够的监督信号以加快共享多尺度特征提取器的训练。一对一匹配分支的作用类似于接收和调整特征以进行端到端检测。

作者猜测一对多匹配策略有助于缓解优化问题,使一对一匹配分支更专注于拟合所接收的表示。在第4.6节中根据经验表明,由一对多分支监督的特征提取器是加速DATE收敛的重要因素。

训练DATE就像训练两个参数共享的网络,然后在推理过程中丢弃其中一个(例如,一对多匹配分支)。这种设计不会在模型推断过程中引入任何开销。由于共享参数,DATE在训练期间只引入了微不足道的成本,使其对资源有限的机器友好。所提出的双重匹配使本文的方法与一对一匹配分支的修改正交,从而可以集成其他改进。在第4.3节中表明,改进一对一匹配分支可以进一步提高性能。

相关文章
|
6月前
|
人工智能 自动驾驶 机器人
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
【2月更文挑战第24天】ICLR 2024:模型选择驱动的鲁棒多模态模型推理
74 1
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
|
4月前
|
编解码 Go 文件存储
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
|
5月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
67 6
|
6月前
|
机器学习/深度学习
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
380 1
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
6月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
238 0
|
6月前
|
机器学习/深度学习 编解码
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
286 0
|
存储 编解码 API
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA(1)
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA
484 0
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA(1)
|
机器学习/深度学习 图形学 网络架构
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
727 0
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
|
计算机视觉 异构计算
目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(二)
目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(二)
152 0