一、本文介绍
本文记录的是利用RFAConv
优化RT-DETR
的目标检测网络模型。标准卷积操作和空间注意力机制虽能解决一定的参数共享问题,但在大尺寸卷积核上应用注意力仍然存在缺陷,未充分考虑卷积核参数共享问题以及感受野中各特征的重要性。而RFAConv
的出现==旨在更全面地解决卷积核参数共享问题,关注感受野空间特征==。本文利用RFAConv
改进RT-DETR
,并设计了不同的网络模型进行二次创新,以最大限度的发挥RFAConv
的性能,精准有效的提高模型精度。
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、RFAConv介绍
RFAConv: Innovating Spatial Attention and Standard Convolutional Operation
RFAConv:创新空间注意力和标准卷积运算
2.1 出发点
- 解决卷积核参数共享问题:分析标准卷积操作和现有空间注意力机制后,发现空间注意力机制虽能解决一定的参数共享问题,但对于大尺寸卷积核存在局限。
RFAConv
旨在更全面地解决卷积核参数共享问题。 - 关注感受野空间特征:现有空间注意力机制如CBAM和CA仅关注空间特征,未充分考虑卷积核参数共享问题以及感受野中各特征的重要性。
RFAConv
的设计出发点是关注感受野空间特征,以提升网络性能。2.2 原理
2.2.1 感受野空间特征的定义与生成
感受野空间特征是针对卷积核设计的,根据卷积核大小动态生成。以3×3卷积核为例,它由非重叠滑动窗口组成,每个窗口代表一个感受野滑块。
2.2.2 基于感受野空间特征的注意力计算
- 首先利用
Group Conv
快速提取感受野空间特征,然后通过AvgPool
聚合全局信息,接着使用1×1组卷积操作交互信息,最后用softmax
强调感受野特征内各特征的重要性。计算过程可表示为$F = Softmax(g^{1 × 1}(AvgPool(X)))× ReLU(Norm(g^{k × k}(X)))=A{rf}×F{rf}$。 - 与CBAM和CA不同,RFA能够为每个感受野特征生成注意力图,从而解决了卷积核参数共享问题,并突出了感受野滑块内不同特征的重要性。
2.3 结构
- 整体结构:以3×3卷积核为例,RFAConv的整体结构包括输入特征图经过快速提取感受野空间特征(如Group Conv)、信息聚合(AvgPool)、信息交互(1×1组卷积)和特征重要性强调(softmax)等操作,最终得到注意力图与变换后的感受野空间特征相乘的结果。
- 与其他模块的关系:
RFAConv
可视为一个轻量级的即插即用模块,它所设计的卷积操作可以替代标准卷积,与卷积操作紧密结合,相互依赖以提升网络性能。同时,基于RFA的思想还设计了升级版本的CBAM(RFCBAM)和CA(RFCA),其结构也与RFAConv类似,都注重感受野空间特征,在提取特征信息时使用特定的卷积操作(如对于RFCBAM和RFCA,最终使用$k×k$且步长$=k$的卷积操作)。
2.4 优势
- 性能提升
- 在分类任务中,如在ImageNet - 1k数据集上的实验,RFAConv替换ResNet18和ResNet34的部分卷积操作后,仅增加少量参数和计算开销,就显著提高了识别结果。例如ResNet18 - RFAConv相比原始模型仅增加0.16M参数和0.09G计算开销,TOP1和TOP5准确率分别提高1.64%和1.24%。
- 在对象检测任务中,在COCO2017和VOC7 + 12数据集上的实验表明,使用
RFAConv
替换部分卷积操作,网络的检测结果显著提升,同时参数和计算开销增加较小。 - 在语义分割任务中,在VOC2012数据集上的实验显示,
RFAConv
构造的语义分割网络相比原始模型有更好的结果。
- 解决参数共享问题:通过关注感受野空间特征,
RFAConv
完全解决了卷积核参数共享问题,使得卷积操作不再依赖于共享参数,提高了网络对不同位置信息的敏感性。 - 计算成本和参数增加可忽略:
RFAConv
在提升网络性能的同时,带来的计算成本和参数增加几乎可以忽略不计,相比一些其他方法具有更好的性价比。
论文:https://arxiv.org/pdf/2304.03198
源码:https://github.com/Liuchen1997/RFAConv
三、实现代码及RT-DETR修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: