全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)(二)

简介: 全新FPN | 通道增强特征金字塔网络(CE-FPN)提升大中小目标检测的鲁棒性(文末附论文)(二)

3 本文方法


3.1 overall

image.png

网络架构图

整体网络架构如图所示。根据FPN的设置,CE-FPN生成一个4级特征金字塔。表示主干的输出为,它们相对于输入图像有像素的stride。是经过卷积后,Channel Redection后256维度的特征。特征金字塔是通过FPN中的自上而下通路产生的。

作者去掉了和的节点,这2个节点是FPN原始的具有语义信息的最高级特征。因为提出的方法充分利用了来自的Channel信息。重复的特征融合不仅会造成更严重的混叠效果,而且会造成不必要的计算负担。所有最终结果都独立执行预测,这与原始FPN的特征金字塔相对应。

3.2 Sub-pixel Skip Fusion

在FPN中,残差网络被广泛用作骨干网络,输出通道为{256,512,1024,2048},其中high-level特征包含丰富的语义信息。

image.png

图3(a)

如图3(a)所示,为了提高计算效率,采用卷积层来降低的Channel维数,导致Channel信息严重丢失。进一步研究的FPN-based的方法一般集中在256个Channel的特征金字塔上开发有效的模块,而的Channel信息丰富却没有得到充分利用。

基于这一观察,作者期望可以开发丰富通道的特征来提高得到的特征金字塔的性能。为此,引入了一种直接融合方法,将低分辨率(LR)特征与高分辨率(HR)特征融合在一起。亚像素卷积是一种上采样方法,它通过对channel的尺寸进行变换来增加宽度和高度的尺寸。像素shuffle操作符将形状的特征重新排列为,数学上定义为:

image.png

其中,r为upscaling factor,F为输入特征,为坐标位置的特征像素。

image.png

图b

如图b所示,在使用亚像素卷积进行上采样时,首先需要增加LR图像通道的尺寸,这带来了额外的计算量。HR图像是不可靠的,需要额外的训练。因此,FPN采用了最近邻上采样。然而,作者观察到(1024,2048)中的通道数量足以执行亚像素卷积。

因此引入了亚像素跳变融合(SSF),在不进行channel缩减的情况下直接对LR图像进行上采样,如图3(c)所示。

image.png

图3(c)

SSF利用丰富的channel信息,并将它们合并到中,描述为:

image.png

其中为减少信道的1x1卷积,i为金字塔层的指数,为channel变换。采用亚像素卷积中的因子r作为2,使空间尺度加倍进行融合。采用1×1卷积或分割操作改变通道尺寸,实现双亚像素上采样。如果通道维度满足要求,执行id映射。然后通过元素求和和最近邻上采样得到与FPN相同的特征金字塔。

如网络架构图所示,SSF可以看作是到和到的2个额外的连接。SSF同时进行上采样和channel融合,然后利用high-level特征丰富的channel信息,增强了特征金字塔的表示能力。

3.3 Sub-pixel Context Enhancement

一方面,传统的FPN通过融合来自high-level的语义信息,自然地赋予low-level特征图不同的context信息;但最高级的特征只包含单一尺度的context信息,不能从其他信息中获益。

另一方面,高分辨率的输入图像需要具有更大感受野的神经元来获取更多的语义信息,以捕捉大的目标。

为了解决这两个问题,作者采用了融合映射的框架,并引入了亚像素上下文增强(Subpixel Context Enhancement,SCE),在上利用更多的context信息和更大的感受野。将提取的context特征融合到集成图I中。

image.png

图4

如图4所示。SCE的核心思想是融合大域局部信息和全局context信息,生成更具判别性的特征。假设输入特征图的形状为,输出的积分图I为。C采用256。通过如下的平行路径执行3个context特征量表。

第1步

在C5上应用3×3卷积来提取局部信息。同时,对通道尺寸进行变换,实现亚像素上采样。然后采用亚像素卷积进行双尺度上采样;

第2步

输入特征通过3×3的最大池化下行采样到w×h,并经过1×1卷积层来扩展Channel维度。然后进行4个亚像素卷积上采样。这个pathway可以为更大的感受野获得丰富的context信息。

第3步

在C5上对全局context信息执行全局平均池化。然后,得到了1×1×8C被压缩到1×1×C,并广播到大小4w×4h的feat map。第1和第3条路径分别提取局部和全局context信息。

第4步

3个生成的特征映射将按元素的总和聚合到集成映射I。通过扩展3个尺度的特征表征,SCE有效地扩大了的感受野,提高了I的表征能力。因此,最高级特征中的语义信息在FPN中得到了充分的利用。为了简单起见,删除了和的节点。

3.4 Channel Attention Guided Module

跨尺度特征map存在语义差异,综合的特征可能会产生混叠效应,混淆定位和识别任务。在FPN中,每一个合并的特征映射都要进行3×3的卷积,生成最终的特征金字塔。

本文提出的SSF和SCE融合了更多的跨尺度特征,使得混叠效应比原来的FPN更加严重。为了减轻混叠的负面影响,一个直观的解决方案是在特征金字塔上应用注意力模块。然而,在金字塔的每一层执行独立的注意力模块会带来巨大的计算,因为一些检测器采用6级金字塔甚至更多。同时,作者期望不同层次的注意机制能够从其他层次的信息中学习。

为此,作者提出了一个受CBAM启发的通道注意引导模块(CAG),它可以引导金字塔的各个层次来缓解混叠效应。CAG只通过集成映射I提取Channel权值,然后将Channel权值乘以每个输出特征。

图5

CAG的流程如图5所示。首先分别使用全局平均池化和全局最大池化来聚合2种不同的空间context信息。接下来,这2个描述符分别被转发到FC层。最后,通过元素求和和sigmoid函数对输出特征向量进行合并。该过程可以表述为:

其中CA()为通道注意函数,为sigmoid函数,i为金字塔级指数。

CAG的设计只是为了减少混叠特征的误导,而不是通过复杂的架构来增强特征的更有区别性的能力。因此,轻量级计算是设计的核心,而且CA()对其他注意力模型来说也是鲁棒的。


4 实验结果


4.1 COCO数据集实验

如表所示,CE-FPN替代FPN后,以ResNet-50和ResNet-101为骨干的Faster R-CNN分别达到38.8和40.9AP,分别比baseline高1.4和1.5点。当使用ResNext101-64x4d backbone时模型达到43.1AP。

通过图6可以看出CE-FPN对小、中和大的目标都可以得到满意的结果,而典型的FPN产生较差的结果。典型的FPN模型偶尔会遗漏一些目标,因为这些目标可能太小。


5 参考


[1].CE-FPN: Enhancing Channel Information for Object Detection


6 推荐阅读


CVPR2021全新Backbone | ReXNet在CV全任务以超低FLOPs达到SOTA水平(文末下载论文和源码)

你的YOLO V4该换了 | YOLO V4原班人马改进Scaled YOLO V4,已开源(附论文+源码)

CVPR2021-即插即用 | Coordinate Attention详解与CA Block实现(文末获取论文原文)

Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)

最强检测 | YOLO V4?都是弟弟! CenterNet2以56.4mAP超越当前所有检测模型(附源码与论文)

相关文章
|
3月前
|
编解码 Go 文件存储
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
|
2月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
33 1
|
3月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
|
3月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进 - 特征融合NECK】 GIRAFFEDET之GFPN :广义特征金字塔网络,高效地融合多尺度特征
YOLOv8专栏探讨了目标检测的创新改进,提出了GiraffeDet,一种轻量级主干和深度颈部模块结合的高效检测网络。GiraffeDet使用S2D-chain和GFPN,优化多尺度信息交换,提升检测性能。代码和论文可在相关链接找到。GFPN通过跳跃和跨尺度连接增强信息融合。文章还展示了核心组件如SPPV4、Focus和CSPStage的代码实现。
|
3月前
|
计算机视觉 网络架构
【YOLOv8改进 - 卷积Conv】DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
YOLO目标检测专栏探讨了YOLO的创新改进,如多尺度特征提取的DWRSeg网络。该网络通过区域残差化和语义残差化提升效率,使用DWR和SIR模块优化高层和低层特征。DWRSeg在Cityscapes和CamVid数据集上表现优秀,速度与准确性兼备。论文和代码已公开。核心代码展示了一个包含DWR模块的卷积层。更多配置详情见相关链接。
|
3月前
|
机器学习/深度学习 大数据 计算机视觉
【YOLOv8改进 - 特征融合】 GELAN:YOLOV9 通用高效层聚合网络,高效且涨点
YOLOv8专栏探讨了深度学习中信息瓶颈问题,提出可编程梯度信息(PGI)和广义高效层聚合网络(GELAN),改善轻量级模型的信息利用率。GELAN在MS COCO数据集上表现优越,且PGI适用于不同规模的模型,甚至能超越预训练SOTA。[论文](https://arxiv.org/pdf/2402.13616)和[代码](https://github.com/WongKinYiu/yolov9)已开源。核心组件RepNCSPELAN4整合了RepNCSP块和卷积。更多详情及配置参见相关链接。
|
2月前
|
人工智能 算法 安全
【2023 年第十三届 MathorCup 高校数学建模挑战赛】C 题 电商物流网络包裹应急调运与结构优化问题 赛后总结之31页论文及代码
本文总结了2023年第十三届MathorCup高校数学建模挑战赛C题的解题过程,详细阐述了电商物流网络在面临突发事件时的包裹应急调运与结构优化问题,提出了基于时间序列预测、多目标优化、遗传算法和重要性评价模型的综合解决方案,并提供了相应的31页论文和代码实现。
52 0
|
4天前
|
存储 安全 网络安全
云计算与网络安全:技术融合下的信息安全新挑战
【9月更文挑战第29天】在数字化浪潮的推动下,云计算服务如雨后春笋般涌现,为各行各业提供了前所未有的便利和效率。然而,随着数据和服务的云端化,网络安全问题也日益凸显,成为制约云计算发展的关键因素之一。本文将从技术角度出发,探讨云计算环境下网络安全的重要性,分析云服务中存在的安全风险,并提出相应的防护措施。我们将通过实际案例,揭示如何在享受云计算带来的便捷的同时,确保数据的安全性和完整性。
|
4天前
|
SQL 安全 算法
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【9月更文挑战第29天】随着互联网的普及,网络安全问题日益严重。本文将介绍网络安全漏洞、加密技术以及安全意识等方面的内容,帮助读者了解网络安全的重要性,提高自身的网络安全意识。
|
4天前
|
存储 SQL 安全
网络安全与信息安全:构建安全防线的关键策略
本文深入探讨了网络安全与信息安全领域的核心要素,包括网络安全漏洞、加密技术以及安全意识的重要性。通过对这些关键领域的分析,旨在为读者提供一套综合性的防护策略,帮助企业和个人在日益复杂的网络环境中保障数据安全。
15 4
下一篇
无影云桌面