1 简介
特征金字塔网络(FPN)已成为目标检测中提取多尺度特征的有效框架。然而,目前FPN-based的方法大多存在Channel Reduction的固有缺陷,导致语义信息的丢失。而融合后的各种特征图可能会造成严重的混叠效果。
本文提出了一种新的通道增强特征金字塔网络(CE-FPN),该网络由3个简单而有效的模块组成。具体来说,受亚像素卷积的启发,提出了一种既实现Channel增强又实现上采样的sub-pixel skip fusion方法。它代替了原来的卷积和线性上采样,减少了由于Channel Reduction而造成的信息丢失。然后,然后本文还提出了一种sub-pixel context enhancement模块来提取更多的特征表示,Sub-pixel Convolution利用了丰富的通道信息,优于其他context方法。
在此基础上,引入了一个通道注意力引导模块对每一层的最终集成特征进行优化,从而在较少的计算量下减轻了混叠效应。实验表明,CE-FPN在MS COCO基准上与最先进的FPN-based的检测器相比,具有竞争性的性能。
2 方法简介
2.1 Information loss of channel reduction
Fiture 1a
图1(a)中FPN-based的方法采用1×1 convolutional layers对backbone的输出特征映射进行Channel降维,丢失了Channel信息。通常在高级特征映射中提取数千个通道,这些通道在中被缩减为一个小得多的常数(比如说2048缩减为256)。
图1b
图1c
现有的方法主要是在Channel Redection映射上增加额外的模块,而不是像图1(b)、1(c)所示的充分利用。EfficientDet开发不同FPN通道的各种配置。这表明,增加FPN通道可以提高性能,同时增加更多的参数和FLOPs,所以EfficientDet仍然采用相对较少的通道,并提出了复杂连接的BiFPN以获得更好的精度。因此,从主干网输出的Channel Redection大大减少了后续预测的计算消耗,但也带来了精度损失。
2.2 Information decay during fusion
在目标检测中, low-level和high-level是互补的,而在自顶向下的特征融合过程中,语义信息会被稀疏化。
PAFPN和Libra R-CNN提出了融合方法,充分利用每一层的特征。然而,high-level语义特征的表征能力并没有被广泛应用于更大的感受野。而利用context信息是一种改善特征表示的比较好的方法,它避免了直接添加更深的卷积层而带来的计算负担。
2.3 Aliasing effects in cross-scale fusion
Cross-scale fusion和skip connections已经被广泛用于提高模型的性能。简单的连接实现了在每个层次上的各种功能的充分利用。
然而,Cross-scale特征图存在语义差异,插值后直接融合可能会产生混叠效应。各种综合特征可能会混淆定位和识别任务。通过对融合特征的非局部注意的细化,可以设计更多的注意模块来优化融合的混叠特征,提高其识别能力。