3、本文方法
在本节中将介绍所提出的集中式特征金字塔(CFP)的实现细节。首先在第III-A节中概述了CFP的架构描述。然后,在第III-B节中展示了显式视觉中心的实现细节。最后,展示了如何在图像特征金字塔上实现显式视觉中心,并在第III-C节中提出了全局集中规则。
3.1、Centralized Feature Pyramid (CFP)
尽管现有的方法主要集中于层间特征交互,但它们忽略了层内特征规则,这已被经验证明对视觉识别任务有益。在本文的工作中,受先前关于密集预测任务的工作的启发,作者提出了一种基于全局显式集中层内特征调节的CFP用于目标检测。
与现有的特征金字塔相比,提出的CFP不仅可以捕获全局的长距离依赖关系,还可以实现全面和差异化的特征表示。
如图2所示,CFP主要由以下部分组成:输入图像、用于提取视觉特征金字塔的CNN主干、提出的显式视觉中心(EVC)、提出的全局集中规则(GCR)以及用于目标检测的去解耦head网络(由分类损失、回归损失和分割损失组成)。在图2中,EVC和GCR在提取的特征金字塔上实现。
具体来说,首先将输入图像送入主干网络(即修改后的CSP v5),以提取五级一特征金字塔X,其中每层特征的空间大小分别为输入图像的1/2,1/4,1/8,1/16,1/32。
基于这个特征金字塔CFP得以实现。提出了一种轻量级MLP架构来捕获的全局长程依赖性,其中标准Transformer编码器的多头自注意力模块被MLP层取代。与基于多头注意力机制的Transformer编码器相比,轻量级MLP架构不仅结构简单,而且体积更轻,计算效率更高。
此外,可学习的视觉中心机制与轻量级MLP一起用于聚合输入图像的局部角区域。将上述并行结构网络命名为空间EVC,其在特征金字塔的顶层(即)上实现。基于所提出的ECV,为了使特征金字塔的浅层特征能够以有效的模式同时受益于最深特征的视觉集中信息,其中从最深层内特征获得的显式视觉中心信息被用于同时调节所有前部浅特征(即至)。最后,将这些特征聚合到一个解耦头中进行分类和回归。
3.2、 Explicit Visual Center (EVC)
如图3所示,提出的EVC主要由两个并行连接的块组成,其中使用轻量级MLP来捕获顶级特征的全局长期依赖性(即全局信息)。同时,为了保留局部角区域(即,局部信息),提出在上实现可学习的视觉中心机制以聚集层内局部区域特征。
这两个块的结果特征图沿着信道维度连接在一起,作为用于下游识别的EVC的输出。在实现中,在和EVC之间,Stem块用于特征平滑,而不是直接在原始特征图上实现,如YOLOv5所示。Stem块由输出通道大小为256的7×7卷积组成,随后是批处理归一化层和激活函数层。上述过程可表述为:
其中是EVC的输出。表示沿通道维度的特征图连接。和分别表示所使用的轻量级MLP和可学习视觉中心机制的输出特征。是阀杆组的输出,通过以下公式获得:
其中表示7×7与stride=1的卷积,本文的工作将通道大小设置为256。表示批处理归一化层,表示ReLU激活函数。
1、MLP
使用的轻量级MLP主要由两个残差模块组成:基于深度卷积的模块和基于通道MLP的块,其中基于MLP的模块的输入是基于深度卷积模块的输出。这两个块之后都是通道缩放操作和DropPath操作,以提高特征泛化和鲁棒性能力。
具体地,对于基于深度卷积的模块,从Stem模块输出的特征首先被馈送到深度卷积层,该深度卷积层已经通过组归一化处理(即,沿着通道维度对特征图进行分组)。与传统的空间卷积相比,深度卷积可以提高特征表示能力,同时降低计算成本。然后,实现通道缩放和droppath。之后,实现的残差连接。上述过程可表述为:
其中是基于深度卷积的模块的输出。是群归一化,而则是核大小为1×1的深度卷积。
对于基于 Channels MLP的模块,从基于深度卷积的模块输出的特征首先被馈送到a组归一化,然后在这些特征上实现Channels MLP。与空间MLP相比,Channels MLP不仅可以有效降低计算复杂性,而且可以满足一般视觉任务的要求。之后,依次实现通道缩放、下降路径和的剩余连接。上述过程表示为:
其中是Channels MLP。在论文中,为了表示方便,我们省略了等式3和等式4中的信道缩放和下降路径。
2、LCV
LVC是一种具有固有字典的编码器,具有2个组件:
- inherent Codebook:,其中是输入特征的总空间数量,其中和分别表示高度和宽度上的特征图空间大小;
- 可学习视觉中心的一组缩放因子$S={s_1,s_2,…,s_K}。
具体而言,来自Stem块的特征首先通过一组卷积层(由1×1卷积、3×3卷积和1×1卷积组成)的组合进行编码。
然后,编码特征由CBR块处理,CBR块由具有BN层的3×3卷积和ReLU激活函数组成。通过上述步骤,将编码的特征 输入到Codebook中。
为此,使用一组比例因子连续地使和映射相应的位置信息。关于第k个码字的整个图像的信息可以通过以下方式计算:
其中,是第个像素点,是第个可学习的视觉码字,是第缩放因子。是关于每个像素相对于码字的位置的信息。是视觉中心的总数。之后,使用来融合所有,其中包含具有ReLU和平均层的BN层。基于此,如下计算关于个码字的整个图像的完整信息。
在获得码本的输出后,进一步将馈送到完全连接层和1×1卷积层,以预测突出关键类的特征。之后,使用Stem块的输入特征与缩放因子系数之间的通道乘法。上述过程表示为:
其中表示1×1卷积,是Sigmoid激活函数。是通道乘法。最后,在Stem块输出的特征n和局部区域特征之间执行逐通道相加,公式如下:
其中,是通道级的加法。
3.3、 Global Centralized Regulation (GCR)
EVC是一种广义的层内特征调节方法,它不仅可以提取全局长距离相关性,而且可以尽可能地保留输入图像的局部角区域信息,这对于密集预测任务非常重要。然而,在特征金字塔的每个级别使用EVC将导致较大的计算开销。
为了提高层内特征调节的计算效率,作者进一步以自顶向下的方式提出了特征金字塔的GCR。具体而言,如图2所示,考虑到最深的特征通常包含浅层特征中缺乏的最抽象的特征表示,空间EVC首先在特征金字塔的顶层(即)上实现。然后,所获得的包括空间显式视觉中心的特征X被用于同时调节所有的正面浅特征(即,到)。
在实现中,在每个对应的低层特征上,将在深层中获得的特征上采样到与低层特征相同的空间尺度,然后沿着通道维度连接。基于此,通过1×1卷积将级联特征下采样为256的通道大小。通过这种方式能够在自上而下的路径中显式地增加特征金字塔的每一层的全局表示的空间权重,从而CFP可以有效地实现全方位但有区别的特征表示。
4、实验
4.1、数据集和评估指标
4.2、消融研究
4.3、效率分析
4.4、与最先进的方法的比较
5、参考
[1].Centralized Feature Pyramid for Object Detection.