【计算机视觉】DETR 系列的最新综述!

简介: DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中

论文地址:

https://arxiv.org/pdf/2306.04670.pdf

项目地址:

https://github.com/mindgarage-shan/trans_object_detection_survey

image.png
Transformer在自然语言处理(NLP)中的惊人表现,让研究人员很兴奋地探索它们在计算机视觉任务中的应用。与其他计算机视觉任务一样,DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中。它是一种最先进的(SOTA)目标检测方法,特别是在图像中目标数量相对较少的情况下。尽管DETR很成功,但它的训练收敛速度慢,对小目标的性能较差。因此,人们提出了许多改进方法来解决这些问题,从而极大地改进了DETR。自2020年以来,基于Transformer的目标检测引起了越来越多的关注,并展示了令人印象深刻的性能。尽管研究社区已经对Transformer在视觉领域进行了大量追踪,但仍然缺少关于使用Transformer进行2D目标检测的进展的综述。本文对21篇有关DETR研究进展的论文进行了详细的综述。从Transformer的基本模块开始,如自注意力、对象查询和输入特征编码。然后,介绍了DETR的最新进展,包括backbone修改、查询设计和注意力精化。还从性能和网络设计方面比较了所有检测Transformer。希望这项研究能增加研究人员对解决在目标检测领域应用Transformer面临的现有挑战的兴趣。

从引用量、发展时间线和DETR方法变体的魔改思路分布等角度展示DETR的发展:

image.png
关于变形金刚的文献统计综述。

(a)每年Transformer论文的引用次数。
(b)过去12个月有关侦测变压器的论文的引用次数。
(c)为改进性能和培训一致性而对原始检测变压器(DETR)进行修改的百分比。
(d)每年使用DETR作为基线的同行评审出版物的数量。
(e)关于探测任务的DETR的重要发展的不详尽的时间表概述。

其中图c展示了DETR变体主要对Attention进行了修改,其次是query,最后是Backbone。

image.png

表1总结了相关变体的修改思路和亮点:

image.png

检测变压器(DETR)改进概述,使训练收敛更快,提高小目标的性能。式中,Bk表示骨干,Pre表示预训练,Attn表示注意,Qry表示变压器网络的查询。这里显示了对主要贡献的描述。

图2信息量较大,一图展示了多种变体的框架:

image.png

概述了检测变压器(DETR)及其改进的最新方法,以提高性能和训练收敛性。它将检测视为一组预测任务,并使用Transformer将网络从非最大抑制(NMS)等后处理步骤中解放出来。在这里,添加到DETR中的每个模块都用不同的颜色表示,并带有相应的标签(如右侧所示)。

该综述分别对图2中的方法进行了简要的介绍,并通过图3-9把图2中的子图抽离了出来对了些比对。

image.png

原DETR在加入deformation -DETR、UP-DETR、Efficient-DETR后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为Deformable-DETR,左下方框为UP-DETR,右下方框为Efficient-DETR。

image.png

原DETR加入SMCA-DETR、TSP-DETR、condition -DETR后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。

使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框表示SMCA-DETR,左下方框表示TSP-DETR,右下方框表示condition -DETR。

image.png

原DETR加入WB-DETR、PnP-DETR、Dynamic-DETR后的结构。

这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。

右上方框为WB-DETR,左下方框为PnP-DETR,右下方框为Dynamic-DETR。

image.png

加入YOLOS-DETR、Anchor-DETR和Sparse-DETR后的原始DETR结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。

使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为YOLOS-DETR,左下方框为Anchor-DETR,右下方框为Sparse-DETR。

image.png

原DETR加入D2ETR、FP-DETR、CF-DETR后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为D2ETR,左下方框为FP-DETR,右下方框为CF-DETR。

image.png

原DETR加入DAB-DETR、DN-DETR和AdaMixer后的结构。这里,左上角的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。右上方框为DAB-DETR,左下方框为DN-DETR,右下方框为AdaMixer。

image.png

原DETR加入REGO-DETR[26]和DINO[27]后的结构。这里,顶部的网络是一个简单的DETR网络,以及用小彩色框表示的改进。使用带有相应彩色边框的较大框来说明这些小彩色框的内部机制。左下方框表示REGO-DETR,右下方框表示DINO。

表3将上述review的算法的性能进行了汇总:

image.png
image.png

图10和图11分别对训练epoch和model size对结果的影响,算法对大中小目标的性能差异进行了对比:

image.png

image.png

表4对各个算法的优势和局限性进行了总结:

image.png

相关文章
|
机器学习/深度学习 资源调度 自然语言处理
|
机器学习/深度学习 人工智能 编解码
NLP携手Transformer跨界计算机视觉!DETR:目标检测新范式
自 Transformer 被提出以来,便席卷了整个 NLP 领域。其实,它还可以用来进行目标检测。Facebook AI 的研究者首先推出了 Transformer 视觉版本——Detection Transformer(DETR),填补了 Transformer 用于目标检测的空白,对标超越 Faster RCNN。基于 DETR,研究者们提出了多种优化版本进行目标检测任务,效果还不错。
447 0
NLP携手Transformer跨界计算机视觉!DETR:目标检测新范式
|
7月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
643 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
130 0
|
3月前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
3月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
5月前
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
263 11
|
6月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
159 8
|
7月前
|
机器学习/深度学习 编解码 人工智能
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
705 7
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
70 1

热门文章

最新文章

下一篇
DataWorks