小目标检测 | 即插即用 | YOLOv5可以这样升级

简介: 小目标检测 | 即插即用 | YOLOv5可以这样升级

小目标检测是计算机视觉和目标检测领域的一个重大挑战。小目标检测器的性能往往因缺乏像素和不太重要的特征而受到影响。这个问题源于特征尺度的变化和特征处理过程中的信息丢失引起的信息错位。

为了应对这一挑战,本文提出了一种新的多对一模块(M2S),它通过改进特征提取和细化特征来增强特定层。具体而言,M2S包括所提出的跨尺度聚合模块(CAM)和所探索的双重关系模块(DRM),以提高信息提取能力和特征细化效果。

此外,本文通过利用M2S生成额外的检测头,提高了小目标检测的准确性。在VisDrone202I DET和SeaDronesSee V2两个数据集上评估了所提出方法的有效性。

实验结果表明,与现有方法相比,其性能有所提高。与基线模型(YOLOv5s)相比,M2S在VisDrone2021 DET测试数据集上的准确性提高了约1.1%,在SeaDronesSeeV2验证集上的精度提高了15.68%。


1、简介


小目标检测长期以来一直是目标检测中的一个挑战,其目的是准确检测图像中视觉特征很少的小目标(32像素乘32像素以下的目标)。在YouOnly Look One level Feature(YOLOF)中提出了一种由骨干网络、编码器和解码器组成的检测模型。YOLOF中提出,通过选择合适的尺度特征,将多输入和单输出输出到特定水平,可以获得与多输入和多输出相当的性能。

在小目标检测任务中,本文提出了一种对单个输出模块的多输入,该模块以低级别特征和高分辨率输出。它为检测器提供了更准确、更丰富的信息,从而提高了检测器的性能。

特征金字塔网络(FPN)的成功归功于分而治之的理念。分而治之可以确保图像特征在不同的层中可用,而如果只提供单向的信息流,那么FPN在每一层都会受到限制。结果是,每一层特征都只能从自己的角度预测。因此,以前的工作致力于增加不同层次特征的相互作用,并允许在每个层次进行更多的全局思考。FPN作为优秀检测器SSD、YOLO和RCNN的骨干网络出现。EfficientDet使用交叉边缘连接BiFPN,并重复它以获得更好的精度和效率。尽管之前的作品表现出了令人满意的性能,但目标检测仍然存在一个问题:

image.png

小规模实例对象检测不佳。基于这个问题,本文提出了一个模块来增强不同网络级别的通信,提高特征提取效率。跨尺度融合模块旨在更好地聚合更多特征,提高模型的特征提取能力,如图1所示。

对于注意力而言,在使用关于特征的上下文信息方面具有显著的效率。然而,仅使用一种类型的注意力很难充分利用多层次特征之间的潜在关系。受CBAM和Jiont注意力的启发,注意力机制面向通道和空间维度。一种创新的双重关系模块(DRM)结合了空间注意力和通道注意力机制。通过CBAM获得的信息只能从输入的单个特征中导出,从而导致缺乏丰富的信息。

本文针对不同层次的特征具有不同偏好的信息,提出了一个多输入到单输出的注意力模块。因此,DRM不仅结合了2种注意力机制,而且利用了3级特征信息的特性,实现了更有效的语义信息增强和补充。DRM嵌入在CAM之后,其概览图如图1所示。

在验证阶段,在两个具有大比例小目标数据集的数据集上验证了本文的方法,即VisDrone2021 DET和SeaDronesSeeV2。这2个数据集中的每一个都有大量的小规模目标,这是评估本文方法有效性的一个很好的方法。此外,将消融实验纳入实验中,以验证各个模块的作用。此外,还建立了一个比较实验,将本文方法的性能与之前的注意力模块进行了比较。

总之,上述两项创新提高了检测模型的整体性能。这项工作的贡献总结如下:

  1. 提出了一种跨规模聚合模块(CAM),用于融合骨干网络的5级特征并将其融合为3级特征。在本文中,CAM嵌入在骨干网络和Neck网络之间,以改进单层特征的视角。
  2. 将空间注意力和通道注意力相结合本文提出了一种双重关系模块(DRM),该模块弥补了一维注意力机制的不足。同时,使用DRM,来自跨尺度融合模块的3级特征也被聚合为一级特征。
  3. 在两个公共基准数据集VisDrone2021DET和SeaDroneSeeV2上评估了提出的小目标检测方法。并比较了几种最先进的方法。实验结果证明了本文的方法在小目标检测方面的优越性能。

2、本文方法


2.1、概览

对于图像对象检测,检测器在检测小目标方面效率低下,因为FPN中的不同Level之间存在未对准,并且由于多次卷积而导致信息丢失,这是提取特征信息后信息不确定这一事实所固有的。

为此,本文提出了一种新的多对单(M2S),以提高小目标的检测器性能。如图1所示,M2S由2个模块组成:跨尺度聚合模块和双重关系模块。

M2S通过2种方式来解决这个问题:

  • 首先,收集足够丰富的语义信息;
  • 其次,对收集到的信息进行特征提取。

M2S分两步实现操作:

  • 第一步,将骨干网络的5级特征聚合为3级特征
  • 第二步,使用不同特征的3级特征来增强瓶颈网络的Low-Level特征

与创建多个平行路径的PANet、Bi-FPN不同,本文提出的M2S将多个平行的路径聚合为一个路径。骨干网络的5级特征被馈送到跨尺度聚合模块(CAM)中,用于收集不同尺度的特征的语义并聚合它们。

有效的特征提取是M2S的第一步,第二部分是加强有效信息的过滤。为了更有效地细化聚合信息,引入了双重关系模块(DRM)。使用DRM增强Head网络功能,以实现更好的检测性能。

总之,本文利用CAM提高了检测器的特征提取能力,并综合了多尺度特征的信息,为后续工作奠定了基础。在获得更丰富的特征信息之后,使用DRM将信息融合并加权到头部网络中。结合以上两个步骤,获得了改进的检测器性能。

2.2、跨尺度特征聚合

生成具有丰富上下文信息的3级特征是CAM的目标。跨尺度融合节点(CFN)是CAM的一个子模块,用于相邻3层特征的融合。自上而下和自下而上的工作流程,CAM模块如图1所示,呈“V”形模块布局。其中,对CFN的输入的中间层是先前CFN的输出。它将更好地集成主干网络的自下而上的特征,同时允许顶部和底部信息进行交互。

image.png

跨尺度融合模块的结构如图2所示。来自主干的三个相邻特征、、,(2≤i≤4)分别作为输入馈送到CFM。有必要对和进行预处理,因为输入的3个特征来自不同深度的级别。注意到FOCUS下采样是通过对像素和通道进行整形来完成的。

作者认为FCOUs下采样方法允许通道和空间信息交互。因此,FCOUs被应用,而不是与朝向下采样的步长2进行卷积。使用双线性插值方法对进行上采样。和被reshape为与相同的形状。前2个特征与连接,并提供给瓶颈模块。

CAM由放置在一起的几个CFN组成,收集语义的目标是通过内部工作流实现的。最终,CAM将把5级特征聚合为3个特征映射:低、中、高。

2.3、双关系模块

检测任务解决了“在哪里”和“什么”的问题。通道注意力和空间注意力机制被广泛应用于计算机视觉研究,分别用于提高模型的“什么”和“在哪里”的能力。通道注意力集中在“什么”是有意义的输入图像,而空间注意力集中在信息量最大的部分“在哪里”。

DRM作为CAM和头部网络之间的桥梁发挥着关键作用。DRM从CAM捕获多维关系,以增强和校准输入。High、Mid和Low中的每一个被馈送到相对于DRM的模块中以获得更丰富的上下文信息。

1、通道关系模块

受SRM思想的启发,ECA等人在检测器中嵌入了通道注意力。通道注意力机制使得能够有效地提取目标信息。本文提出了一种CRM通道注意力模块,该模块也嵌入到FPN中,以实现增强的检测器性能。

CRM的详细信息如图3所示。“高”特征图是跨尺度聚合模块(CAM)输出融合特征。因此,作者认为利用“高”来加强通道维度的投入更有效。在“高”和输入的串联之后,首先应用卷积,以便卷积输出后的通道数量与输入相同。其次,通过采用结合全局平均池化和全局标准差池化来收集全局信息。2种不同的风格池化,每种风格池化都能够捕捉不同特征。

最后,2种风格的池化获得输入的通道特征信息,并通过全连接层生成通道权重向量。

那么激活操作的参数为:

其中是激活函数。STD和AVG分别表示标准池化和全局平均池化。是连接“High”和输入的特征。采用函数计算注意力空间特征图:

其中,计算第个位置的影响程度。给定维度的特征信息可以丰富基于输入的特征映射的信息。本文中的激活函数都是如上所述公式化的。其中根据池化的类型具有不同的表示,例如,对于提取通道信息,表示第个通道的信息。

中的通道数与输入保持相同。最后,将上述结果与输入相乘,得到最终输出,如下所示。总体而言,SRM可以写成:

其中B表示为图3所示的输入。因此,通过上述结构,通道注意力可以选择性地集中在重要特征上,并抑制不必要的特征。

2、空间关系模块

通道注意力的局限性意味着它只能在通道方面得到增强和削弱。就其本身而言,空间关系模块(SRM)利用空间维度信息来增强。是从CRM中获得的。SRM的详细信息如图3所示。

来自更深一层的“Mid”也会通过更多的卷积。CAM的“低”包含3个浅层次的特征信息。前者包含语义丰富的信息,而后者包含准确的结构信息。基于上述两者在特性上的差异,SRM也被分为2个分支用于特征增强。

首先,和“Mid”通过拼接进行池化,然后是两种不同类型的池化,以获得空间信息特征,如CRM。采用激活函数来获得空间权重向量。然后,空间权重向量将乘以,并由定义的参数β加权“Mid”。

注意,这里β是一个可训练的参数,β的初始设置为0.3。该分支的末端按元素对加权的“Mid”和加权的求和。在该分支产生之后,由空间权重向量加权,如等式3所示:

image.png

其中“中间”特征表示为CAM的第二层特征。是等式3中表示的通道增强特征。β被定义为赋值权重,最初设置为0.3。

与第一个分支相比,第二个分支相对简单。第二个分支使用来自“Low”的精确信息对来自E的信息进行信息偏移校正。卷积后生成通道号为1的向量,其宽度和高度与“Low”相同。然后通过激活函数来获得该分支预测的偏差特征。

最后,通过将偏置特征与E相加来获得,以获得空间相关性增强和对准,其由以下方程表示:

image.png

其中Conv表示核大小为1×1的卷积。是方程3中的特征。表示来自CAM的3级特征图的下部特征。

2.4、损失函数

IoU作为判断预测框大小和位置准确性的基础是非常重要的。它直接显示了GT边界框和预测框的相交程度。IoU损失函数的计算公式如下:

其中,GT边界框表示为,预测框表示为。IoU不会反映预测框的真实质量,具有相同的比较区域但不同的比较情况。GIoU引入了一个惩罚项,以更好地反映预测框的质量。GIoU损失函数的计算公式如下:

其中,GIoU的计算公式为:

GIoU引入了一个新的方框,与IoU不同,后者直接计算两个方框和的交比。A是一个包含和的最小矩形。和的组合面积为U。IoU损失函数,一旦没有交叉点,交叉比为0,无法继续优化。当交叉口比率为0时,GIoU还根据关于和的信息为引入的处罚的损失提供优化。

因此,GIoU提供了比IoU更精确的交叉比测量。面积较小的目标会得到更好的优化,因为当和并集趋于0并且相距更远时,GIoU接近-1。


3、实验



4、参考


[1].A NOVEL MULTI TO SINGLE MODULE FOR SMALL OBJECT DETECTION.

相关文章
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
873 0
|
2月前
|
机器学习/深度学习
YOLOv10优改系列一:YOLOv10融合C2f_Ghost网络,让YoloV10实现性能的均衡
本文介绍了YOLOv10的性能优化,通过融合Ghost模块和C2f结构,实现了网络性能的均衡。GhostNet通过GhostModule和GhostBottleNeck减少参数量,适用于资源有限的场景。YOLOv10-C2f_Ghost在减少参数和计算量的同时,保持了与原始网络相当或更好的性能。文章还提供了详细的代码修改步骤和可能遇到的问题解决方案。
201 1
YOLOv10优改系列一:YOLOv10融合C2f_Ghost网络,让YoloV10实现性能的均衡
|
7月前
|
网络架构
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
316 0
|
7月前
|
机器学习/深度学习 数据挖掘 测试技术
DETR即插即用 | RefineBox进一步细化DETR家族的检测框,无痛涨点
DETR即插即用 | RefineBox进一步细化DETR家族的检测框,无痛涨点
393 1
|
7月前
|
机器学习/深度学习 网络架构
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
483 1
|
7月前
|
机器学习/深度学习
YOLOv8改进 | 主干篇 | EfficientViT高效的特征提取网络完爆MobileNet系列(轻量化网络结构)
YOLOv8改进 | 主干篇 | EfficientViT高效的特征提取网络完爆MobileNet系列(轻量化网络结构)
508 0
|
7月前
|
机器学习/深度学习 编解码 算法
YOLOv8改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测模型)
YOLOv8改进 | 主干篇 | 低照度增强网络PE-YOLO改进主干(改进暗光条件下的物体检测模型)
347 0
|
7月前
|
机器学习/深度学习 编解码 固态存储
YOLOv8改进之更换BiFPN并融合P2小目标检测层
BiFPN(Bi-directional Feature Pyramid Network)是一种用于目标检测和语义分割任务的神经网络架构,旨在改善特征金字塔网络(Feature Pyramid Network, FPN)的性能。FPN是一种用于处理多尺度信息的网络结构,通常与骨干网络(如ResNet或EfficientNet)结合使用,以生成不同分辨率的特征金字塔,从而提高对象检测和分割的性能。BiFPN在此基础上进行了改进,以更好地捕获多尺度信息和提高模型性能。
2716 0
|
算法 PyTorch 调度
ResNet 高精度预训练模型在 MMDetection 中的最佳实践
作为最常见的骨干网络,ResNet 在目标检测算法中起到了至关重要的作用。许多目标检测经典算法,如 RetinaNet 、Faster R-CNN 和 Mask R-CNN 等都是以 ResNet 为骨干网络,并在此基础上进行调优。同时,大部分后续改进算法都会以 RetinaNet 、Faster R-CNN 和 Mask R-CNN 为 baseline 进行公平对比。
911 0
ResNet 高精度预训练模型在 MMDetection 中的最佳实践