目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(二)

简介: 目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(二)

3、实验


3.1、DATE的优势

image.png

3.2、Promising Extension to DATE

image.png

3.3、更强的骨干

image.png

3.4、拥挤的场景检测

image.png

3.5、为什么要进行双重匹配?

1、Basic Observations

image.png

如表1所示,与OneNet(使用一对一匹配策略训练)相比,使用一对多匹配策略训练的检测器收敛更快,即使它们具有类似的架构。例如,经过12个Epoch的训练后,RetinaNet和FCOS分别报告了36.9 AP和37.3 AP。相比之下,本文OneNet基线性能为35.4 AP,远低于RetinaNet和FCOS。这些结果表明,一对多匹配在更快收敛方面可能很重要。假设充分的正样本有助于一对多分配模型的收敛。假设一对多匹配有助于共享特征提取器的学习,并进一步加快一对一指派分支的收敛。

2、关于训练有素的特征提取器

image.png

首先设计实验来验证由一对多匹配监督的特征提取器的重要性。使用经过训练的FCOS初始化DATE的多尺度特征提取器。一对一匹配分支保持随机初始化状态。将最大迭代次数设置为30000次。其他设置与从头开始训练DATE保持相同,例如,一起训练两个分支。

图3中的结果表明,只有约三分之一的训练时间足以超过普通OneNet,即36.5 AP,而OneNet的35.4 AP。将这种现象归因于初始化良好的特征提取器。在例子中,经过训练的特征提取器适用于一对多匹配分支。一对一匹配分支所需的特性可能类似于一对多匹配分支,这里只需要进行一些调整。

进一步从DATE中删除一对多任务,只训练一对一任务分支。结果表明,一对多匹配分支对训练有素的特征提取器的影响有限,即最终性能降至36.3 AP(0.2 AP)。

这些现象表明,无论是否存在一对多匹配分支,训练有素的特征提取器对于用一对一匹配训练的检测器来说都是重要的。然而,从头学习此类模型的过程很慢,例如OneNet。假设差异在于正样本的数量。这些观察促使提出双重任务。通过引入用一对多匹配策略训练的分支,双重匹配提供了更多的积极样本来监督特征提取器的学习。

3、论双重匹配的引入

image.png

引入的一对多匹配使得一对一匹配分支收敛更快。图4中的经验证据表明,一对多匹配分支主要通过减少分类损失来加快一对一匹配分支的收敛。假设共享的多尺度特征提取器起着重要作用。一对多匹配比一对多匹配分支生成更多的正样本,这可以通过减少更多训练迭代的必要性来加快特征提取器的收敛。作者猜测,较早的收敛使得特征提取器产生用于分类的“一般”特征。因此,一对一匹配分支可能主要调整其参数以适应表示。

3.5、消融实验

1、Dual Assignment and POTO

2、About NMS

3、Weights of Losses

4、Training Cost

5、Not Sharing Subnets


4、参考


[1].DATE: Dual Assignment for End-to-End Fully Convolutional Object Detection.


5、推荐


目标检测落地技能 | 拥挤目标检测你是如何解决的呢?改进Copy-Paste解决拥挤问题!

量化加速系列 | 一文带你对YOLOv5使用PTQ和QAT进行量化加速!!!

ViT系列 | 24小时用1张GPU训练一个Vision Transformer可还好?

相关文章
|
机器学习/深度学习 算法 数据挖掘
目标检测算法——YOLOv3
目标检测算法——YOLOv3
457 0
目标检测算法——YOLOv3
|
2月前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
295 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
10月前
|
机器学习/深度学习 自然语言处理 算法
从滑动窗口到YOLO、Transformer:目标检测的技术革新
从滑动窗口到YOLO、Transformer:目标检测的技术革新
231 0
|
算法 计算机视觉
目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(一)
目标检测系列 | 无NMS的端到端目标检测模型,超越OneNet,FCOS等SOTA!(一)
345 0
|
计算机视觉
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(二)
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(二)
175 0
|
机器学习/深度学习 计算机视觉 索引
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(一)
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度(一)
619 0
|
机器学习/深度学习 数据可视化 计算机视觉
详细解读 | 如何让你的DETR目标检测模型快速收敛(一)
详细解读 | 如何让你的DETR目标检测模型快速收敛(一)
616 0
|
计算机视觉
详细解读 | 如何让你的DETR目标检测模型快速收敛(二)
详细解读 | 如何让你的DETR目标检测模型快速收敛(二)
287 0
|
存储 编解码 固态存储
一文带你了解时下最新的目标检测模型——YOLOv8
Ultralytics YOLOv8: State-of-the-Art YOLO Models,作者:Sovit Rath
1744 0