目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(二)

简介: 目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(二)

3、实验


3.1、DATE的优势

image.png

3.2、Promising Extension to DATE

image.png

3.3、更强的骨干

image.png

3.4、拥挤的场景检测

image.png

3.5、为什么要进行双重匹配?

1、Basic Observations

image.png

如表1所示,与OneNet(使用一对一匹配策略训练)相比,使用一对多匹配策略训练的检测器收敛更快,即使它们具有类似的架构。例如,经过12个Epoch的训练后,RetinaNet和FCOS分别报告了36.9 AP和37.3 AP。相比之下,本文OneNet基线性能为35.4 AP,远低于RetinaNet和FCOS。这些结果表明,一对多匹配在更快收敛方面可能很重要。假设充分的正样本有助于一对多分配模型的收敛。假设一对多匹配有助于共享特征提取器的学习,并进一步加快一对一指派分支的收敛。

2、关于训练有素的特征提取器

image.png

首先设计实验来验证由一对多匹配监督的特征提取器的重要性。使用经过训练的FCOS初始化DATE的多尺度特征提取器。一对一匹配分支保持随机初始化状态。将最大迭代次数设置为30000次。其他设置与从头开始训练DATE保持相同,例如,一起训练两个分支。

图3中的结果表明,只有约三分之一的训练时间足以超过普通OneNet,即36.5 AP,而OneNet的35.4 AP。将这种现象归因于初始化良好的特征提取器。在例子中,经过训练的特征提取器适用于一对多匹配分支。一对一匹配分支所需的特性可能类似于一对多匹配分支,这里只需要进行一些调整。

进一步从DATE中删除一对多任务,只训练一对一任务分支。结果表明,一对多匹配分支对训练有素的特征提取器的影响有限,即最终性能降至36.3 AP(0.2 AP)。

这些现象表明,无论是否存在一对多匹配分支,训练有素的特征提取器对于用一对一匹配训练的检测器来说都是重要的。然而,从头学习此类模型的过程很慢,例如OneNet。假设差异在于正样本的数量。这些观察促使提出双重任务。通过引入用一对多匹配策略训练的分支,双重匹配提供了更多的积极样本来监督特征提取器的学习。

3、论双重匹配的引入

image.png

引入的一对多匹配使得一对一匹配分支收敛更快。图4中的经验证据表明,一对多匹配分支主要通过减少分类损失来加快一对一匹配分支的收敛。假设共享的多尺度特征提取器起着重要作用。一对多匹配比一对多匹配分支生成更多的正样本,这可以通过减少更多训练迭代的必要性来加快特征提取器的收敛。作者猜测,较早的收敛使得特征提取器产生用于分类的“一般”特征。因此,一对一匹配分支可能主要调整其参数以适应表示。

3.5、消融实验

1、Dual Assignment and POTO

2、About NMS

3、Weights of Losses

4、Training Cost

5、Not Sharing Subnets


4、参考


[1].DATE: Dual Assignment for End-to-End Fully Convolutional Object Detection.


5、推荐


目标检测落地技能 | 拥挤目标检测你是如何解决的呢?改进Copy-Paste解决拥挤问题!

量化加速系列 | 一文带你对YOLOv5使用PTQ和QAT进行量化加速!!!

ViT系列 | 24小时用1张GPU训练一个Vision Transformer可还好?

相关文章
|
6月前
|
人工智能 自动驾驶 机器人
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
【2月更文挑战第24天】ICLR 2024:模型选择驱动的鲁棒多模态模型推理
74 1
ICLR 2024:模型选择驱动的鲁棒多模态模型推理
|
4月前
|
编解码 Go 文件存储
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
|
5月前
|
人工智能 vr&ar 计算机视觉
CVPR 2024:让图像扩散模型生成高质量360度场景,只需要一个语言模型
【6月更文挑战第20天】CVPR 2024研究表明,结合语言模型的图像扩散模型能高效生成360度全景图像,减少对标注数据的依赖。该框架利用语言模型的语义信息引导细节丰富的图像生成,解决了传统方法的标注难题。然而,方法的准确性和计算资源需求是挑战。这一进展推动了VR/AR图像生成技术的发展。[论文链接](https://arxiv.org/pdf/2406.01843)**
67 6
|
6月前
|
机器学习/深度学习
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
380 1
YOLOv8改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
6月前
|
机器学习/深度学习 编解码 算法
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
助力目标检测涨点 | 可以这样把Vision Transformer知识蒸馏到CNN模型之中
238 0
|
6月前
|
机器学习/深度学习 编解码
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器(ViT)的视角重新审视CNN
286 0
|
存储 编解码 API
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA(1)
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA
484 0
名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA(1)
|
机器学习/深度学习 图形学 网络架构
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
727 0
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
|
算法 计算机视觉
目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(一)
目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(一)
314 0