全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!

简介: 全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!

特征金字塔网络 (FPN) 一直是目标检测模型考虑目标的各种尺度的基本模块。但是,小目标的平均精度(AP)相对于中大目标的平均精度(AP)要低。原因是 CNN 的更深层特征会带来信息丢失。

作者提出了一种新的 FPN Scale Sequence() 特征提取方法,以加强小目标的特征信息。作者将 FPN 结构视为尺度空间,并在 FPN 的水平轴上通过 3D 卷积提取 Scale Sequence()特征。基本上是一个尺度不变的特征,建立在小目标的高分辨率金字塔特征图上。此外,所提出的  特征可以扩展到大多数基于 FPN 的目标检测模型。

作者证明了所提出的  特征可以提高 MS COCO 数据集上的One-StageTwo-Stage检测器的性能。基于提出的  特征,分别为 YOLOv4-P5YOLOv4-P6 实现了高达 1.3% 和 1.1% 的 AP 改进。对于 Faster RCNNMask R-CNN  特征分别提高了 2.0% 和 1.6% 的 AP


简介


目标检测是计算机视觉中必不可少的一项基本任务。它已广泛应用于机器人视觉、自动驾驶和无人机系统(UAV)等应用中。在过去的几年中,基于卷积神经网络 (CNN) 的目标检测模型显著提高了检测的性能。然而,小目标检测仍然是一项具有挑战性的任务。通常,小目标上的平均精度()相对低于中型目标()和大目标上的平均精度()。根据 MS COCO 定义,如果Segmentation Mask的区域小于 32×32 像素,则目标被归类为“小目标”。

image.png

图 1 显示了 MS COCO 数据集上小、中、大规模的目标尺度比例和 AP 的性能差距。可以看到小目标所占的比例最大。然而,小目标()的平均精度是其他尺度中最低的。此外,红线显示了与其他量表的性能差距。

一个目标在自然图像中具有各种尺度,因此目标检测模型必须学习多尺度特征。为了处理多尺度、尺度不变的特征,在传统的计算机视觉中进行了研究。即使目标比例发生变化,也可以检测到尺度不变特征。如果模型学习尺度不变特征,则可以有效地解决小目标检测问题。

尺度空间是一种多尺度表示,通过高斯核的方差参数化以提取尺度不变特征。多尺度表示可以由不同分辨率的图像组成。另一方面,最近基于深度学习的目标检测模型已经使用特征金字塔网络(FPN)作为Neck模块来有效地处理多尺度目标。在检测head之前,根据它们的比例将它们分配到一个单独的金字塔层。例如,在低分辨率金字塔特征图中检测大目标,在高分辨率金字塔特征图中检测小目标。

为了提高 FPN 的性能,已经提出了基于 FPN 的模型来缓解每层金字塔特征图之间的语义差距。然而,大多数模型只是像拼接这样的融合操作。因此,他们无法充分考虑所有金字塔特征图的相关性。

当输入图像输入 CNN 时,FPN 由通过每个卷积层的输出特征图组成。金字塔特征图的分辨率在卷积过程中变得更小。这种 FPN 架构类似于 Scale-SpaceFPNlevel 轴可以被认为是 Scale 轴。因此,可以从 FPN 中提取尺度不变。这种方法也启发了FPN Scale Sequence()的诞生。

金字塔层级越高,图像尺寸越小,但语义信息越强。作者将FPN水平轴视为序列的时间轴,并通过3D卷积提取时空特征。因此,尺度序列特征可以是尺度空间的独特特征,也是尺度不变特征。此外,所有的 FPN 特征图都可以使用3D卷积参与操作。它包括所有金字塔特征图之间的比例相关性。

与其他尺度相比,小目标问题的原因是 CNN 的深层导致信息丢失,如小目标特征和边界框的定位信息。对于小目标,作者设计了基于高分辨率金字塔特征图的尺度序列()特征。通常,在高分辨率金字塔特征图中检测小目标。因此,作者将每个金字塔特征均等地调整为高分辨率特征图。具有扩展分辨率的金字塔特征图类似于高斯金字塔。它们被拼接到 4D 张量以进行 3D 卷积。这个特征可以被认为是动态头部中引用的一般视图。提取后,将设计的尺度序列()特征拼接到高分辨率金字塔特征图上,用于检测小目标。

本文贡献有3方面:

  1. 提出了一种新的尺度序列() 特征,该特征是在 FPN 上通过 3D 卷积提取得到的。特征是 FPN 的尺度不变特征,被视为尺度空间。此外,所有金字塔特征图都参与了提取尺度序列特征的操作。
  2. 尺度序列特征可以提高小目标的AP以及其他尺度的 AP,因为它建立在高分辨率特征图上以增强小目标的特征。
  3. 尺度序列特征可以扩展到大多数基于FPN 的目标检测模型。作者试验了具有尺度序列特征的One-StageTwo-Stage检测器。

所提方法


1、Scale Sequence Feature

image.png

在本节中介绍一个新特性:尺度序列()。目标是找到 FPN 的尺度不变特征。尽管图像的大小发生了变化,但尺度不变特征并没有改变。

首先,解释传统计算机视觉中的尺度空间理论。尺度空间是沿着图像的尺度轴构建的。它代表的不是一个尺度,而是目标可以具有的各种尺度范围。空间是通过使用高斯滤波器模糊图像而不是直接调整图像大小来生成的。尺度空间如图 2(a) 所示。尺度参数值越大,生成的图像越模糊。在这个理论中,尺度意味着图像的细节。换句话说,模糊图像丢失了细节,但图像的结构特征突出。计算如下:

image.png

其中  是 2D 图像, 是通过使用 2D 高斯滤波器  通过一系列卷积平滑生成的。 是尺度参数,作为 2D 高斯滤波器的标准偏差,用于卷积。结果,这些图像具有相同的分辨率,但具有不同的比例参数值。

这里将特征金字塔网络(FPN)视为尺度空间。当输入图像输入 CNN 时,FPN 由通过每个卷积层的输出特征图组成。Low-level金字塔特征图具有高分辨率并且具有定位信息,尤其是对于小目标。另一方面,High-level金字塔特征图分辨率低,但语义特征丰富。

此属性类似于在比例轴上具有权衡信息的比例空间。因为基于这种结构,参考Dynamic head的一般视图,在调整它们相同的分辨率后与所有金字塔特征拼接。一般视图如图2(b)所示。它显示特征表示与水平轴不同。最后,从 FPN 的比例视图中提取了这个一般视图的独特特征。

image.png

其中  是来自第  个不同Level的金字塔特征图。最高分辨率的特征金字塔是 。在将金字塔特征图调整为特定分辨率后,通过拼接相同分辨率的特征图生成通用视图 G。一般视图被制作为 4D 张量:

image.png

FPN 的一个独特功能必须考虑所有一般视图特征图。作者的动机来自视频识别任务中的 3D 卷积。在这一领域,3D 卷积用于提取视频中的运动。图2(c)显示了时间轴上的视频帧。运动是帧的序列和空间信息。将一般视图的金字塔特征图视为视频帧,这就是为什么一般视图是卷积序列的原因。视频帧的时间轴可以认为是一般视图的水平轴。将一般视图的独特特征定义为尺度序列()特征。它是在一般视图的水平轴上通过 3D 卷积提取的。该尺度序列特征是一般视图如运动的时空特征。此外,FPN 的所有金字塔特征图都有助于 3D 卷积操作。

因此,它可以包括跨特征金字塔的尺度相关性。它不同于其他基于 FPN 的特征融合方法,它们只是简单地在金字塔特征图之间求和和拼接。尺度序列()特征的定义如下:

image.png

其中  是基于 3D 卷积的尺度序列模块。该模块可以从一般视图中提取尺度序列特征()。为了应用3D卷积将一般视图的水平轴视为视频帧的时间轴:

image.png

由于时间是帧的长度,它可以表示为一般视图的Level数。

2、Framework Based on Scale Sequence Module

image.png

在本节中将解释 ,即比例序列模块。图 3 显示了建议的尺度序列模块框架。通常,目标检测模型由Backbone网络、特征融合的Neck模块检测Head组成。输入图像被输入到Backbone网络CNNTransformer 被用作提取特征的Backbone。通过每个卷积层的卷积特征表示为 。接下来,在 Neck 中通过自上而下和自下而上的融合来聚合卷积特征。作者采用路径聚合网络PAN)架构代替 FPN 进行有效的多尺度特征融合。金字塔特征表示为 。图3(b) 显示了输入尺度序列模块的金字塔特征。

在尺度序列模块中,尺度序列特征是基于设计的,因为在高分辨率特征图中检测到小目标。作者将所有金字塔特征图的大小调整为  的分辨率。为了构建一个总体视图,使用 unsqueeze 函数为每个特征添加Level维度并将它们拼接起来。这个一般视图被输入到 3D 卷积块中。3D卷积块3D卷积3D批量归一化Leaky ReLU激活函数组成。为了降低复杂度,采用了一个 3D 卷积块。对于小目标检测,将尺度序列()特征和结合或一起用于检测Head3D 卷积块的输出特征是通过在水平轴上平均池化 3D 来计算的。最后,尺度序列特征具有与  相同的宽度、高度和通道。新的小目标检测Head具有相同的分辨率,但通道为:

image.png

其中  是尺度序列 () 特征和  之间拼接的结果, 是金字塔特征图中的最高分辨率。在这个新的检测Head  中检测到小目标。

默认情况下,使用  为小目标提取建议的尺度序列特征。然而,尺度序列特征的基本分辨率大小不需要是高分辨率的。它可以根据应用目的更改为不同的分辨率。

尺度序列模块可应用于One-StageTwo-Stage检测器。图3(c)显示了One-Stage检测器Head的过程,图3(d)显示了Two-Stage检测器Head。为了有效地模块化Two-Stage RoI Head,在  中添加了 1×1 卷积。因此,Two-Stage检测器  的通道尺寸与通道尺寸相同。


实验


SOTA对比

image.png

image.png

消融实验

1、Ablation study on different position of pyramid level

image.png

2、Ablation study on Neck model

3、实时性对比


参考


[1].ssFPN: Scale Sequence () Feature Based-Feature Pyramid Network for Object Detection


推荐阅读


YOLOP v2来啦 | YOLOv7结合YOLOP的多任务版本,超越YOLOP以及HybridNets

nnUNet 改进 | 让UNet系列在大赛中雄风依旧!

华为 + 武汉大学提出基于高斯感受野的标签分配 RFLA,大幅度解决超小目标问题!

相关文章
|
机器学习/深度学习 编解码 自动驾驶
全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!
全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!
555 0
全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!
|
4月前
|
计算机视觉 网络架构
【YOLOv10改进-特征融合】YOLO-MS MSBlock : 分层特征融合策略
YOLOv10专栏介绍了YOLO-MS,一个优化多尺度目标检测的高效框架。YOLO-MS通过MS-Block和异构Kernel选择提升性能,平衡了计算复杂度与准确性。它在不依赖预训练的情况下,在COCO上超越同类模型,如YOLO-v7和RTMDet。MS-Block包含不同大小卷积的分支,用于增强特征表示。代码示例展示了MSBlock类的定义,用于处理不同尺度特征。该模块可应用于其他YOLO模型以提升性能。更多详情和配置参见相关链接。
|
1月前
|
算法 计算机视觉 Python
YOLOv8优改系列二:YOLOv8融合ATSS标签分配策略,实现网络快速涨点
本文介绍了如何将ATSS标签分配策略融合到YOLOv8中,以提升目标检测网络的性能。通过修改损失文件、创建ATSS模块文件和调整训练代码,实现了网络的快速涨点。ATSS通过自动选择正负样本,避免了人工设定阈值,提高了模型效率。文章还提供了遇到问题的解决方案,如模块载入和环境配置问题。
76 0
YOLOv8优改系列二:YOLOv8融合ATSS标签分配策略,实现网络快速涨点
|
4月前
|
机器学习/深度学习 编解码 TensorFlow
【YOLOv8改进- Backbone主干】YOLOv8 更换主干网络之EfficientNet,高效的卷积神经网络,降低参数量
YOLOv8专栏探讨了目标检测的创新改进,包括模型扩展和神经架构搜索。提出的新方法使用复合系数平衡网络的深度、宽度和分辨率,产生了EfficientNets系列,其在准确性和效率上超越了先前的ConvNets。EfficientNet-B7在ImageNet上达到84.3%的顶级准确率,同时保持较小的模型大小和更快的推理速度。文章提供了论文和代码链接,以及核心的EfficientNet模型构建Python代码。
|
4月前
|
机器学习/深度学习 安全 固态存储
【YOLOv8改进 - 注意力机制】LS-YOLO MSFE:新颖的多尺度特征提取模块 | 小目标/遥感
YOLO系列目标检测模型的新发展,LS-YOLO专为滑坡检测设计。它使用多尺度滑坡数据集(MSLD)和多尺度特征提取(MSFE)模块,结合ECA注意力,提升定位精度。通过改进的解耦头,利用膨胀卷积增强上下文信息。在滑坡检测任务中,LS-YOLO相对于YOLOv5s的AP提高了2.18%,达到97.06%。论文和代码已开源。
|
6月前
|
网络架构
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
YOLOv5改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv5(超级轻量化精度更高)
294 0
|
5月前
|
计算机视觉
【YOLOv8改进 - 特征融合NECK】 HS-FPN :用于处理多尺度特征融合的网络结构,降低参数
MFDS-DETR是针对白细胞检测的创新方法,它通过HS-FPN和可变形自注意力解决规模差异和特征稀缺问题。HS-FPN利用通道注意力模块增强特征表达,改善多尺度挑战。代码和数据集可在给定链接获取。此方法在WBCDD、LISC和BCCD数据集上表现优越,证明了其有效性和通用性。YOLO系列文章提供了更多目标检测改进和实战案例。
|
6月前
|
编解码 计算机视觉 网络架构
【YOLOv8改进】BiFPN:加权双向特征金字塔网络 (论文笔记+引入代码)
该专栏深入研究了YOLO目标检测的神经网络架构优化,提出了加权双向特征金字塔网络(BiFPN)和复合缩放方法,以提升模型效率。BiFPN通过双向跨尺度连接和加权融合增强信息传递,同时具有自适应的网络拓扑结构。结合EfficientNet,构建了EfficientDet系列检测器,在效率和准确性上超越先前技术。此外,介绍了YOLOv8如何引入MPDIoU并应用BiFPN进行可学习权重的特征融合。更多详情可参考提供的专栏链接。
|
6月前
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
YOLOv8改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(降低100W参数,全网独家首发)
358 2
|
6月前
|
机器学习/深度学习 网络架构
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
YOLOv8改进 | 2023主干篇 | 利用RT-DETR特征提取网络PPHGNetV2改进YOLOv8(超级轻量化精度更高)
451 1