YOLO目标检测创新改进与实战案例专栏
专栏目录: YOLO有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
专栏链接: YOLO基础解析+创新改进+实战案例
介绍
摘要
在文章中,我们介绍了一种快速且准确的目标检测方法,称为DAMO-YOLO,其性能优于最先进的YOLO系列。DAMO-YOLO在YOLO的基础上扩展了几项新技术,包括神经架构搜索(Neural Architecture Search,NAS)、高效的重参数化通用FPN(RepGFPN)、带有AlignedOTA标签分配的轻量化检测头和蒸馏增强。特别地,我们使用MAE-NAS,这是一种遵循最大熵原则的方法,在低延迟和高性能的约束下搜索检测主干网络,产生了类似ResNet/CSP的结构,结合了空间金字塔池化和聚焦模块。在neck和head的设计中,我们遵循“大neck,小head”的原则。我们引入了加速queen-fusion的通用FPN来构建检测neck,并通过高效层聚合网络(ELAN)和重参数化升级了其CSPNet。然后,我们研究了检测头大小对检测性能的影响,发现具有仅一个任务投影层的重neck可以获得更好的结果。此外,AlignedOTA被提出以解决标签分配中的错位问题,并引入了蒸馏方案来进一步提升性能。
基于这些新技术,我们构建了一套适应不同场景需求的模型。针对一般工业需求,我们提出了DAMO-YOLO-T/S/M/L,这些模型在T4 GPU上的延迟分别为2.78/3.83/5.62/7.95毫秒,在COCO数据集上可实现43.6/47.7/50.2/51.9的mAP。此外,对于计算能力有限的边缘设备,我们还提出了DAMO-YOLO-Ns/Nm/Nl轻量化模型,它们在X86-CPU上的延迟分别为4.08/5.05/6.69毫秒,在COCO数据集上可实现32.3/38.2/40.5的mAP。我们提出的通用和轻量化模型在各自的应用场景中性能优于其他YOLO系列模型。代码可在此处获取。
文章链接
论文地址:论文地址
代码地址:代码地址
基本原理:Large Neck: RepGFPN
在FPN(特征金字塔网络)中,多尺度特征融合旨在聚合不同阶段backbone输出的特征,从而增强输出特征的表达能力,提高模型性能。传统的 FPN 引入自上而下的路径来合并多尺度特征。考虑到单向流量的限制,PAFPN增加了一个额外的自下而上的路径聚合网络,但增加了计算成本。为了降低计算强度,YOLO系列检测网络选择PAFPN和CSPNet来融合主干输出的多尺度特征。
他们在ICLR2022中的工作GiraffeDet提出了一种新颖的Light-Backbone Heavy-Neck结构并实现了SOTA性能,因为给定的颈结构GFPN(广义FPN)可以充分交换高层语义信息和低层空间信息。在GFPN中,多尺度特征融合发生在前一层和当前层的不同尺度特征中,此外,跨层连接log_2(n)提供了更有效的信息传输,可以扩展到更深的网络。
因此,他们尝试将GFPN引入DAMO-YOLO中,并且获得了比PANet更高的准确率,这是预期的。但与此同时,GFPN带来了模型推理延迟的增加,使得精度/延迟的权衡并没有取得很大的优势。通过对原始GFPN结构的分析,他们将原因归结为以下几个方面:
(1)不同尺度的特征共享相同数量的通道,这使得很难给出一个最优的通道数来保证高层低层的特征。 - 分辨率特征和低级高分辨率特征具有同样丰富的表达能力;
(2)GFPN使用Queen-Fusion来增强特征之间的融合,而Queen-Fusion包含大量的上采样和下采样操作来实现不同尺度下特征的融合,这极大地影响了推理速度;
(3)GFPN中使用的3x3卷积的跨尺度特征融合效率不高,无法满足轻量级计算的需求,需要进一步优化。
task与yaml配置
详见:https://blog.csdn.net/shangyanaf/article/details/139863259