全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)(二)

简介: 全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)(二)

3 本文方法


3.1 overall

image.png

网络架构图

整体网络架构如图所示。根据FPN的设置,CE-FPN生成一个4级特征金字塔。表示主干的输出为,它们相对于输入图像有像素的stride。是经过卷积后,Channel Redection后256维度的特征。特征金字塔是通过FPN中的自上而下通路产生的。

作者去掉了和的节点,这2个节点是FPN原始的具有语义信息的最高级特征。因为提出的方法充分利用了来自的Channel信息。重复的特征融合不仅会造成更严重的混叠效果,而且会造成不必要的计算负担。所有最终结果都独立执行预测,这与原始FPN的特征金字塔相对应。

3.2 Sub-pixel Skip Fusion

在FPN中,残差网络被广泛用作骨干网络,输出通道为{256,512,1024,2048},其中high-level特征包含丰富的语义信息。

image.png

图3(a)

如图3(a)所示,为了提高计算效率,采用卷积层来降低的Channel维数,导致Channel信息严重丢失。进一步研究的FPN-based的方法一般集中在256个Channel的特征金字塔上开发有效的模块,而的Channel信息丰富却没有得到充分利用。

基于这一观察,作者期望可以开发丰富通道的特征来提高得到的特征金字塔的性能。为此,引入了一种直接融合方法,将低分辨率(LR)特征与高分辨率(HR)特征融合在一起。亚像素卷积是一种上采样方法,它通过对channel的尺寸进行变换来增加宽度和高度的尺寸。像素shuffle操作符将形状的特征重新排列为,数学上定义为:

image.png

其中,r为upscaling factor,F为输入特征,为坐标位置的特征像素。

image.png

图b

如图b所示,在使用亚像素卷积进行上采样时,首先需要增加LR图像通道的尺寸,这带来了额外的计算量。HR图像是不可靠的,需要额外的训练。因此,FPN采用了最近邻上采样。然而,作者观察到(1024,2048)中的通道数量足以执行亚像素卷积。

因此引入了亚像素跳变融合(SSF),在不进行channel缩减的情况下直接对LR图像进行上采样,如图3(c)所示。

image.png

图3(c)

SSF利用丰富的channel信息,并将它们合并到中,描述为:

image.png

其中为减少信道的1x1卷积,i为金字塔层的指数,为channel变换。采用亚像素卷积中的因子r作为2,使空间尺度加倍进行融合。采用1×1卷积或分割操作改变通道尺寸,实现双亚像素上采样。如果通道维度满足要求,执行id映射。然后通过元素求和和最近邻上采样得到与FPN相同的特征金字塔。

如网络架构图所示,SSF可以看作是到和到的2个额外的连接。SSF同时进行上采样和channel融合,然后利用high-level特征丰富的channel信息,增强了特征金字塔的表示能力。

3.3 Sub-pixel Context Enhancement

一方面,传统的FPN通过融合来自high-level的语义信息,自然地赋予low-level特征图不同的context信息;但最高级的特征只包含单一尺度的context信息,不能从其他信息中获益。

另一方面,高分辨率的输入图像需要具有更大感受野的神经元来获取更多的语义信息,以捕捉大的目标。

为了解决这两个问题,作者采用了融合映射的框架,并引入了亚像素上下文增强(Subpixel Context Enhancement,SCE),在上利用更多的context信息和更大的感受野。将提取的context特征融合到集成图I中。

image.png

图4

如图4所示。SCE的核心思想是融合大域局部信息和全局context信息,生成更具判别性的特征。假设输入特征图的形状为,输出的积分图I为。C采用256。通过如下的平行路径执行3个context特征量表。

第1步

在C5上应用3×3卷积来提取局部信息。同时,对通道尺寸进行变换,实现亚像素上采样。然后采用亚像素卷积进行双尺度上采样;

第2步

输入特征通过3×3的最大池化下行采样到w×h,并经过1×1卷积层来扩展Channel维度。然后进行4个亚像素卷积上采样。这个pathway可以为更大的感受野获得丰富的context信息。

第3步

在C5上对全局context信息执行全局平均池化。然后,得到了1×1×8C被压缩到1×1×C,并广播到大小4w×4h的feat map。第1和第3条路径分别提取局部和全局context信息。

第4步

3个生成的特征映射将按元素的总和聚合到集成映射I。通过扩展3个尺度的特征表征,SCE有效地扩大了的感受野,提高了I的表征能力。因此,最高级特征中的语义信息在FPN中得到了充分的利用。为了简单起见,删除了和的节点。

3.4 Channel Attention Guided Module

跨尺度特征map存在语义差异,综合的特征可能会产生混叠效应,混淆定位和识别任务。在FPN中,每一个合并的特征映射都要进行3×3的卷积,生成最终的特征金字塔。

本文提出的SSF和SCE融合了更多的跨尺度特征,使得混叠效应比原来的FPN更加严重。为了减轻混叠的负面影响,一个直观的解决方案是在特征金字塔上应用注意力模块。然而,在金字塔的每一层执行独立的注意力模块会带来巨大的计算,因为一些检测器采用6级金字塔甚至更多。同时,作者期望不同层次的注意机制能够从其他层次的信息中学习。

为此,作者提出了一个受CBAM启发的通道注意引导模块(CAG),它可以引导金字塔的各个层次来缓解混叠效应。CAG只通过集成映射I提取Channel权值,然后将Channel权值乘以每个输出特征。

图5

CAG的流程如图5所示。首先分别使用全局平均池化和全局最大池化来聚合2种不同的空间context信息。接下来,这2个描述符分别被转发到FC层。最后,通过元素求和和sigmoid函数对输出特征向量进行合并。该过程可以表述为:

其中CA()为通道注意函数,为sigmoid函数,i为金字塔级指数。

CAG的设计只是为了减少混叠特征的误导,而不是通过复杂的架构来增强特征的更有区别性的能力。因此,轻量级计算是设计的核心,而且CA()对其他注意力模型来说也是鲁棒的。


4 实验结果


4.1 COCO数据集实验

如表所示,CE-FPN替代FPN后,以ResNet-50和ResNet-101为骨干的Faster R-CNN分别达到38.8和40.9AP,分别比baseline高1.4和1.5点。当使用ResNext101-64x4d backbone时模型达到43.1AP。

通过图6可以看出CE-FPN对小、中和大的目标都可以得到满意的结果,而典型的FPN产生较差的结果。典型的FPN模型偶尔会遗漏一些目标,因为这些目标可能太小。


5 参考


[1].CE-FPN: Enhancing Channel Information for Object Detection


6 推荐阅读


CVPR2021全新Backbone | ReXNet在CV全任务以超低FLOPs达到SOTA水平(文末下载论文和源码)

你的YOLO V4该换了 | YOLO V4原班人马改进Scaled YOLO V4,已开源(附论文+源码)

CVPR2021-即插即用 | Coordinate Attention详解与CA Block实现(文末获取论文原文)

Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)

最强检测 | YOLO V4?都是弟弟! CenterNet2以56.4mAP超越当前所有检测模型(附源码与论文)

相关文章
|
15天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
本研究基于MATLAB 2022a,使用GRU网络对QAM调制信号进行检测。QAM是一种高效调制技术,广泛应用于现代通信系统。传统方法在复杂环境下性能下降,而GRU通过门控机制有效提取时间序列特征,实现16QAM、32QAM、64QAM、128QAM的准确检测。仿真结果显示,GRU在低SNR下表现优异,且训练速度快,参数少。核心程序包括模型预测、误检率和漏检率计算,并绘制准确率图。
83 65
基于GRU网络的MQAM调制信号检测算法matlab仿真,对比LSTM
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
揭示Transformer周期建模缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
北京大学研究团队发现,Transformer等主流神经网络在周期特征建模方面存在缺陷,如记忆数据模式而非理解内在规律,导致泛化能力受限。为此,团队提出基于傅里叶分析的Fourier Analysis Network(FAN),通过显式建模周期性特征,提升模型的理解和预测能力,减少参数和计算量,并在多个实验中验证其优越性。论文链接:https://arxiv.org/pdf/2410.02675.pdf
27 3
|
1月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
74 9
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
60 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
1月前
|
Shell 网络架构 计算机视觉
RT-DETR改进策略【模型轻量化】| ShufflenetV2,通过通道划分构建高效网络
RT-DETR改进策略【模型轻量化】| ShufflenetV2,通过通道划分构建高效网络
37 5
|
1月前
|
计算机视觉 Perl
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
48 10
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
|
1月前
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
60 10
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
|
1月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
80 9
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
1月前
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
117 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
1月前
|
Shell 网络架构 计算机视觉
YOLOv11改进策略【模型轻量化】| ShufflenetV2,通过通道划分构建高效网络
YOLOv11改进策略【模型轻量化】| ShufflenetV2,通过通道划分构建高效网络
77 14

热门文章

最新文章