特征金字塔网络 (
FPN
) 一直是目标检测模型考虑目标的各种尺度的基本模块。但是,小目标的平均精度(AP
)相对于中大目标的平均精度(AP)要低。原因是CNN
的更深层特征会带来信息丢失。作者提出了一种新的
FPN Scale Sequence
() 特征提取方法,以加强小目标的特征信息。作者将FPN
结构视为尺度空间,并在FPN
的水平轴上通过3D 卷积
提取Scale Sequence
()特征。基本上是一个尺度不变的特征,建立在小目标的高分辨率金字塔特征图上。此外,所提出的 特征可以扩展到大多数基于FPN
的目标检测模型。作者证明了所提出的 特征可以提高
MS COCO
数据集上的One-Stage
和Two-Stage
检测器的性能。基于提出的 特征,分别为YOLOv4-P5
和YOLOv4-P6
实现了高达 1.3% 和 1.1% 的AP
改进。对于Faster RCNN
和Mask R-CNN
特征分别提高了 2.0% 和 1.6% 的AP
。
简介
目标检测是计算机视觉中必不可少的一项基本任务。它已广泛应用于机器人视觉、自动驾驶和无人机系统(UAV)等应用中。在过去的几年中,基于卷积神经网络 (CNN) 的目标检测模型显著提高了检测的性能。然而,小目标检测仍然是一项具有挑战性的任务。通常,小目标上的平均精度()相对低于中型目标()和大目标上的平均精度()。根据 MS COCO 定义,如果Segmentation Mask
的区域小于 32×32 像素,则目标被归类为“小目标”。
图 1 显示了 MS COCO
数据集上小、中、大规模的目标尺度比例和 AP
的性能差距。可以看到小目标所占的比例最大。然而,小目标()的平均精度是其他尺度中最低的。此外,红线显示了与其他量表的性能差距。
一个目标在自然图像中具有各种尺度,因此目标检测模型必须学习多尺度特征。为了处理多尺度、尺度不变的特征,在传统的计算机视觉中进行了研究。即使目标比例发生变化,也可以检测到尺度不变特征。如果模型学习尺度不变特征,则可以有效地解决小目标检测问题。
尺度空间是一种多尺度表示,通过高斯核的方差参数化以提取尺度不变特征。多尺度表示可以由不同分辨率的图像组成。另一方面,最近基于深度学习的目标检测模型已经使用特征金字塔网络(FPN
)作为Neck模块
来有效地处理多尺度目标。在检测head
之前,根据它们的比例将它们分配到一个单独的金字塔层。例如,在低分辨率金字塔特征图中检测大目标,在高分辨率金字塔特征图中检测小目标。
为了提高 FPN
的性能,已经提出了基于 FPN
的模型来缓解每层金字塔特征图之间的语义差距。然而,大多数模型只是像拼接这样的融合操作。因此,他们无法充分考虑所有金字塔特征图的相关性。
当输入图像输入 CNN
时,FPN
由通过每个卷积层的输出特征图组成。金字塔特征图的分辨率在卷积过程中变得更小。这种 FPN
架构类似于 Scale-Space
,FPN
的 level 轴
可以被认为是 Scale 轴
。因此,可以从 FPN
中提取尺度不变。这种方法也启发了FPN Scale Sequence
()的诞生。
金字塔层级越高,图像尺寸越小,但语义信息越强。作者将FPN
的水平轴
视为序列的时间轴
,并通过3D卷积
提取时空特征
。因此,尺度序列特征
可以是尺度空间的独特特征,也是尺度不变特征。此外,所有的 FPN
特征图都可以使用3D卷积
参与操作。它包括所有金字塔特征图之间的比例相关性。
与其他尺度相比,小目标问题的原因是 CNN
的深层导致信息丢失,如小目标特征和边界框的定位信息。对于小目标,作者设计了基于高分辨率金字塔特征图的尺度序列()特征。通常,在高分辨率金字塔特征图中检测小目标。因此,作者将每个金字塔特征均等地调整为高分辨率特征图。具有扩展分辨率的金字塔特征图类似于高斯金字塔。它们被拼接到 4D 张量以进行 3D 卷积。这个特征可以被认为是动态头部
中引用的一般视图。提取后,将设计的尺度序列()特征拼接到高分辨率金字塔特征图上,用于检测小目标。
本文贡献有3方面:
- 提出了一种新的尺度序列() 特征,该特征是在
FPN
上通过3D 卷积
提取得到的。特征是FPN
的尺度不变特征,被视为尺度空间。此外,所有金字塔特征图都参与了提取尺度序列特征的操作。 - 尺度序列特征可以提高小目标的AP以及其他尺度的 AP,因为它建立在高分辨率特征图上以增强小目标的特征。
- 尺度序列特征可以扩展到大多数基于FPN 的目标检测模型。作者试验了具有尺度序列特征的
One-Stage
和Two-Stage
检测器。
所提方法
1、Scale Sequence Feature
在本节中介绍一个新特性:尺度序列()。目标是找到 FPN
的尺度不变特征。尽管图像的大小发生了变化,但尺度不变特征并没有改变。
首先,解释传统计算机视觉中的尺度空间理论。尺度空间是沿着图像的尺度轴构建的。它代表的不是一个尺度,而是目标可以具有的各种尺度范围。空间是通过使用高斯滤波器模糊图像而不是直接调整图像大小来生成的。尺度空间如图 2(a) 所示。尺度参数值越大,生成的图像越模糊。在这个理论中,尺度意味着图像的细节。换句话说,模糊图像丢失了细节,但图像的结构特征突出。计算如下:
其中 是 2D 图像, 是通过使用 2D 高斯滤波器 通过一系列卷积平滑生成的。 是尺度参数,作为 2D 高斯滤波器的标准偏差,用于卷积。结果,这些图像具有相同的分辨率,但具有不同的比例参数值。
这里将特征金字塔网络(FPN)视为尺度空间。当输入图像输入 CNN 时,FPN 由通过每个卷积层的输出特征图组成。Low-level
金字塔特征图具有高分辨率并且具有定位信息,尤其是对于小目标。另一方面,High-level
金字塔特征图分辨率低,但语义特征丰富。
此属性类似于在比例轴上具有权衡信息的比例空间。因为基于这种结构,参考Dynamic head
的一般视图,在调整它们相同的分辨率后与所有金字塔特征拼接。一般视图如图2(b)所示。它显示特征表示与水平轴不同。最后,从 FPN
的比例视图中提取了这个一般视图的独特特征。
其中 是来自第 个不同Level
的金字塔特征图。最高分辨率的特征金字塔是 。在将金字塔特征图调整为特定分辨率后,通过拼接相同分辨率的特征图生成通用视图 G。一般视图被制作为 4D 张量:
FPN
的一个独特功能必须考虑所有一般视图特征图。作者的动机来自视频识别任务中的 3D 卷积
。在这一领域,3D 卷积
用于提取视频中的运动。图2(c)显示了时间轴上的视频帧。运动是帧的序列和空间信息。将一般视图的金字塔特征图视为视频帧,这就是为什么一般视图是卷积序列的原因。视频帧的时间轴可以认为是一般视图的水平轴。将一般视图的独特特征定义为尺度序列()特征。它是在一般视图的水平轴上通过 3D 卷积
提取的。该尺度序列特征是一般视图如运动的时空特征。此外,FPN
的所有金字塔特征图都有助于 3D 卷积
操作。
因此,它可以包括跨特征金字塔的尺度相关性。它不同于其他基于 FPN
的特征融合方法,它们只是简单地在金字塔特征图之间求和和拼接。尺度序列()特征的定义如下:
其中 是基于 3D 卷积
的尺度序列模块。该模块可以从一般视图中提取尺度序列特征()。为了应用3D卷积
将一般视图的水平轴视为视频帧的时间轴:
由于时间是帧的长度,它可以表示为一般视图的Level
数。
2、Framework Based on Scale Sequence Module
在本节中将解释 ,即比例序列模块。图 3 显示了建议的尺度序列模块框架。通常,目标检测模型由Backbone网络
、特征融合的Neck模块
和检测Head
组成。输入图像被输入到Backbone网络
。CNN
或 Transformer
被用作提取特征的Backbone
。通过每个卷积层的卷积特征表示为 。接下来,在 Neck
中通过自上而下和自下而上的融合来聚合卷积特征。作者采用路径聚合网络
(PAN
)架构代替 FPN
进行有效的多尺度特征融合。金字塔特征表示为 。图3(b) 显示了输入尺度序列模块的金字塔特征。
在尺度序列模块中,尺度序列特征是基于设计的,因为在高分辨率特征图中检测到小目标。作者将所有金字塔特征图的大小调整为 的分辨率。为了构建一个总体视图,使用 unsqueeze
函数为每个特征添加Level
维度并将它们拼接起来。这个一般视图被输入到 3D 卷积块
中。3D卷积块
由3D卷积
、3D批量归一化
和Leaky ReLU激活函数
组成。为了降低复杂度,采用了一个 3D 卷积块。对于小目标检测,将尺度序列()特征和结合或一起用于检测Head
。3D 卷积块
的输出特征是通过在水平轴上平均池化 3D
来计算的。最后,尺度序列特征具有与 相同的宽度、高度和通道。新的小目标检测Head
具有相同的分辨率,但通道为:
其中 是尺度序列 () 特征和 之间拼接的结果, 是金字塔特征图中的最高分辨率。在这个新的检测Head
中检测到小目标。
默认情况下,使用 为小目标提取建议的尺度序列特征。然而,尺度序列特征的基本分辨率大小不需要是高分辨率的。它可以根据应用目的更改为不同的分辨率。
尺度序列模块可应用于One-Stage
和Two-Stage
检测器。图3(c)显示了One-Stage
检测器Head的过程,图3(d)显示了Two-Stage
检测器Head。为了有效地模块化Two-Stage RoI Head
,在 中添加了 1×1 卷积。因此,Two-Stage
检测器 的通道尺寸与通道尺寸相同。
实验
SOTA对比
消融实验
1、Ablation study on different position of pyramid level
2、Ablation study on Neck model
3、实时性对比
参考
[1].ssFPN: Scale Sequence () Feature Based-Feature Pyramid Network for Object Detection