全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!

简介: 全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升!!!

335166b1c1c7926a6fcd728f9c24cb7d.png

特征金字塔网络 (FPN) 一直是目标检测模型考虑目标的各种尺度的基本模块。但是,小目标的平均精度(AP)相对于中大目标的平均精度(AP)要低。原因是 CNN 的更深层特征会带来信息丢失。


作者提出了一种新的 FPN Scale Sequence(1675243232474.png) 特征提取方法,以加强小目标的特征信息。作者将 FPN 结构视为尺度空间,并在 FPN 的水平轴上通过 3D 卷积提取 Scale Sequence1675243232474.png)特征。1675243232474.png基本上是一个尺度不变的特征,建立在小目标的高分辨率金字塔特征图上。此外,所提出的  特征可以扩展到大多数基于 FPN 的目标检测模型。


作者证明了所提出的 1675243232474.png 特征可以提高 MS COCO 数据集上的One-StageTwo-Stage检测器的性能。基于提出的1675243232474.png  特征,分别为 YOLOv4-P5YOLOv4-P6 实现了高达 1.3% 和 1.1% 的 AP 改进。对于 Faster RCNNMask R-CNN  特征分别提高了 2.0% 和 1.6% 的 AP

简介

目标检测是计算机视觉中必不可少的一项基本任务。它已广泛应用于机器人视觉、自动驾驶和无人机系统(UAV)等应用中。在过去的几年中,基于卷积神经网络 (CNN) 的目标检测模型显著提高了检测的性能。然而,小目标检测仍然是一项具有挑战性的任务。通常,小目标上的平均精度(1675243282584.png)相对低于中型目标(1675243295146.png)和大目标上的平均精度(1675243307486.png)。根据 MS COCO 定义,如果Segmentation Mask的区域小于 32×32 像素,则目标被归类为“小目标”。

c883c81852a53d762780498a98f9d44c.png

图 1 显示了 MS COCO 数据集上小、中、大规模的目标尺度比例和 AP 的性能差距。可以看到小目标所占的比例最大。然而,小目标(1675243326810.png)的平均精度是其他尺度中最低的。此外,红线显示了与其他量表的性能差距。

一个目标在自然图像中具有各种尺度,因此目标检测模型必须学习多尺度特征。为了处理多尺度、尺度不变的特征,在传统的计算机视觉中进行了研究。即使目标比例发生变化,也可以检测到尺度不变特征。如果模型学习尺度不变特征,则可以有效地解决小目标检测问题。


尺度空间是一种多尺度表示,通过高斯核的方差参数化以提取尺度不变特征。多尺度表示可以由不同分辨率的图像组成。另一方面,最近基于深度学习的目标检测模型已经使用特征金字塔网络(FPN)作为Neck模块来有效地处理多尺度目标。在检测head之前,根据它们的比例将它们分配到一个单独的金字塔层。例如,在低分辨率金字塔特征图中检测大目标,在高分辨率金字塔特征图中检测小目标。


为了提高 FPN 的性能,已经提出了基于 FPN 的模型来缓解每层金字塔特征图之间的语义差距。然而,大多数模型只是像拼接这样的融合操作。因此,他们无法充分考虑所有金字塔特征图的相关性。


当输入图像输入 CNN 时,FPN 由通过每个卷积层的输出特征图组成。金字塔特征图的分辨率在卷积过程中变得更小。这种 FPN 架构类似于 Scale-SpaceFPNlevel 轴可以被认为是 Scale 轴。因此,可以从 FPN 中提取尺度不变。这种方法也启发了FPN Scale Sequence(1675243232474.png)的诞生。


金字塔层级越高,图像尺寸越小,但语义信息越强。作者将FPN水平轴视为序列的时间轴,并通过3D卷积提取时空特征。因此,尺度序列特征可以是尺度空间的独特特征,也是尺度不变特征。此外,所有的 FPN 特征图都可以使用3D卷积参与操作。它包括所有金字塔特征图之间的比例相关性。


与其他尺度相比,小目标问题的原因是 CNN 的深层导致信息丢失,如小目标特征和边界框的定位信息。对于小目标,作者设计了基于高分辨率金字塔特征图的尺度序列()特征。通常,在高分辨率金字塔特征图中检测小目标。因此,作者将每个金字塔特征均等地调整为高分辨率特征图。具有扩展分辨率的金字塔特征图类似于高斯金字塔。它们被拼接到 4D 张量以进行 3D 卷积。这个特征可以被认为是动态头部中引用的一般视图。提取后,将设计的尺度序列(1675243232474.png)特征拼接到高分辨率金字塔特征图上,用于检测小目标。

本文贡献有3方面:

  1. 提出了一种新的尺度序列() 特征,该特征是在 FPN 上通过 3D 卷积提取得到的。特征是 FPN 的尺度不变特征,被视为尺度空间。此外,所有金字塔特征图都参与了提取尺度序列特征的操作。
  2. 尺度序列特征可以提高小目标的AP以及其他尺度的 AP,因为它建立在高分辨率特征图上以增强小目标的特征。
  3. 尺度序列特征可以扩展到大多数基于FPN 的目标检测模型。作者试验了具有尺度序列特征的One-StageTwo-Stage检测器。

所提方法

1、Scale Sequence Feature

949f984a05c67e7bffec98e2eed30756.png

在本节中介绍一个新特性:尺度序列(1675243232474.png)。目标是找到 FPN 的尺度不变特征。尽管图像的大小发生了变化,但尺度不变特征并没有改变。

首先,解释传统计算机视觉中的尺度空间理论。尺度空间是沿着图像的尺度轴构建的。它代表的不是一个尺度,而是目标可以具有的各种尺度范围。空间是通过使用高斯滤波器模糊图像而不是直接调整图像大小来生成的。尺度空间如图 2(a) 所示。尺度参数值越大,生成的图像越模糊。在这个理论中,尺度意味着图像的细节。换句话说,模糊图像丢失了细节,但图像的结构特征突出。计算如下:

70d57772cc304869b5b99b38107e8fa0.png

其中1675243460038.png  是 2D 图像,1675243489728.png 是通过使用 2D 高斯滤波器 1675243510599.png 通过一系列卷积平滑生成的。 是尺度参数,作为 2D 高斯滤波器的标准偏差,用于卷积。结果,这些图像具有相同的分辨率,但具有不同的比例参数值。

这里将特征金字塔网络(FPN)视为尺度空间。当输入图像输入 CNN 时,FPN 由通过每个卷积层的输出特征图组成。Low-level金字塔特征图具有高分辨率并且具有定位信息,尤其是对于小目标。另一方面,High-level金字塔特征图分辨率低,但语义特征丰富。

此属性类似于在比例轴上具有权衡信息的比例空间。因为基于这种结构,参考Dynamic head的一般视图,在调整它们相同的分辨率后与所有金字塔特征拼接。一般视图如图2(b)所示。它显示特征表示与水平轴不同。最后,从 FPN 的比例视图中提取了这个一般视图的独特特征。

58e313233cac14af10176e9cb0db244e.png

其中1675243533880.png是来自第 1675243545641.png 个不同Level的金字塔特征图。最高分辨率的特征金字塔是1675243582208.jpg 。在将金字塔特征图调整为特定分辨率后,通过拼接相同分辨率的特征图生成通用视图 G。一般视图被制作为 4D 张量:

1675244381416.png


FPN 的一个独特功能必须考虑所有一般视图特征图。作者的动机来自视频识别任务中的 3D 卷积。在这一领域,3D 卷积用于提取视频中的运动。图2(c)显示了时间轴上的视频帧。运动是帧的序列和空间信息。将一般视图的金字塔特征图视为视频帧,这就是为什么一般视图是卷积序列的原因。视频帧的时间轴可以认为是一般视图的水平轴。将一般视图的独特特征定义为尺度序列(1675243232474.png)特征。它是在一般视图的水平轴上通过 3D 卷积提取的。该尺度序列特征是一般视图如运动的时空特征。此外,FPN 的所有金字塔特征图都有助于 3D 卷积操作。

因此,它可以包括跨特征金字塔的尺度相关性。它不同于其他基于 FPN 的特征融合方法,它们只是简单地在金字塔特征图之间求和和拼接。尺度序列(1675243232474.png)特征的定义如下:

87078f191c1d6514280f3c0bc78e7a27.png

其中 1675243608498.png 是基于 3D 卷积的尺度序列模块。该模块可以从一般视图中提取尺度序列特征(1675243629855.png)。为了应用3D卷积将一般视图的水平轴视为视频帧的时间轴:


由于时间是帧的长度,它可以表示为一般视图的Level数。

2、Framework Based on Scale Sequence Module

aa95fce02da7e31b49d5884c1ef8d755.png

在本节中将解释1675243698541.png ,即比例序列模块。图 3 显示了建议的尺度序列模块框架。通常,目标检测模型由Backbone网络、特征融合的Neck模块检测Head组成。输入图像被输入到Backbone网络CNNTransformer 被用作提取特征的Backbone。通过每个卷积层的卷积特征表示为1675243711061.png 。接下来,在 Neck 中通过自上而下和自下而上的融合来聚合卷积特征。作者采用路径聚合网络PAN)架构代替 FPN 进行有效的多尺度特征融合。金字塔特征表示为1675243732926.png 。图3(b) 显示了输入尺度序列模块的金字塔特征。


在尺度序列模块中,尺度序列特征是基于1675243767655.png设计的,因为在高分辨率特征图1675243767655.png中检测到小目标。作者将所有金字塔特征图的大小调整为 1675243767655.png 的分辨率。为了构建一个总体视图,使用 unsqueeze 函数为每个特征添加Level维度并将它们拼接起来。这个一般视图被输入到 3D 卷积块中。3D卷积块3D卷积3D批量归一化Leaky ReLU激活函数组成。为了降低复杂度,采用了一个 3D 卷积块。对于小目标检测,将尺度序列(1675243850815.png)特征和结合或一起用于检测Head3D 卷积块的输出特征是通过在水平轴上平均池化 3D 来计算的。最后,尺度序列特征具有与  相同的宽度、高度和通道。新的小目标检测Head具有相同的分辨率,但通道为:

34d74b65f9f37efa19a75105a8a2eb27.png

其中 1675243870363.png 是尺度序列 (1675243629855.png) 特征和 1675243767655.png 之间拼接的结果,1675243767655.png 是金字塔特征图中的最高分辨率。在这个新的检测Head1675243870363.png  中检测到小目标。


默认情况下,使用 1675243767655.png 为小目标提取建议的尺度序列特征。然而,尺度序列特征的基本分辨率大小不需要是高分辨率的。它可以根据应用目的更改为不同的分辨率。


尺度序列模块可应用于One-StageTwo-Stage检测器。图3(c)显示了One-Stage检测器Head的过程,图3(d)显示了Two-Stage检测器Head。为了有效地模块化Two-Stage RoI Head,在 1675243870363.png 中添加了 1×1 卷积。因此,Two-Stage检测器 1675243870363.png 的通道尺寸与通道尺寸相同。

实验

SOTA对比

4e54daed8d62b499963a7966cd6a7d4e.png

aed14521a9128871b0a3ea827a2269af.png

消融实验

1、Ablation study on different position of pyramid level

bcbbff94fe07b2f7de72e120d4c09e62.png

2、Ablation study on Neck model

88f0d9197ae27ed461086b8e06fc4a9a.png

3、实时性对比

16a5ef72306c46074bc33701ac59edfd.png

参考

[1].ssFPN: Scale Sequence () Feature Based-Feature Pyramid Network for Object Detection

推荐阅读

YOLOP v2来啦 | YOLOv7结合YOLOP的多任务版本,超越YOLOP以及HybridNets

nnUNet 改进 | 让UNet系列在大赛中雄风依旧!

华为 + 武汉大学提出基于高斯感受野的标签分配 RFLA,大幅度解决超小目标问题!

相关文章
|
机器学习/深度学习 算法 PyTorch
RPN(Region Proposal Networks)候选区域网络算法解析(附PyTorch代码)
RPN(Region Proposal Networks)候选区域网络算法解析(附PyTorch代码)
3986 1
|
机器学习/深度学习 C语言 计算机视觉
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
1382 11
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
2996 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
1481 9
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
计算机视觉
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
821 0
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
11149 58
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔,增加针对小目标的检测头(附模块详解和完整配置步骤)
YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔,增加针对小目标的检测头(附模块详解和完整配置步骤)
2119 12
YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔,增加针对小目标的检测头(附模块详解和完整配置步骤)
|
机器学习/深度学习
YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头自注意力
YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头自注意力
517 7
YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头自注意力
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
4486 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
Serverless 计算机视觉
YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性
YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性
2396 9

热门文章

最新文章