RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升

简介: RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升

一、本文介绍

本文记录的是利用RFAConv优化RT-DETR的目标检测网络模型。标准卷积操作和空间注意力机制虽能解决一定的参数共享问题,但在大尺寸卷积核上应用注意力仍然存在缺陷,未充分考虑卷积核参数共享问题以及感受野中各特征的重要性。而RFAConv的出现==旨在更全面地解决卷积核参数共享问题,关注感受野空间特征==。本文利用RFAConv改进RT-DETR,并设计了不同的网络模型进行二次创新,以最大限度的发挥RFAConv的性能,精准有效的提高模型精度。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、RFAConv介绍

RFAConv: Innovating Spatial Attention and Standard Convolutional Operation

RFAConv:创新空间注意力和标准卷积运算

2.1 出发点

  • 解决卷积核参数共享问题:分析标准卷积操作和现有空间注意力机制后,发现空间注意力机制虽能解决一定的参数共享问题,但对于大尺寸卷积核存在局限。RFAConv旨在更全面地解决卷积核参数共享问题。
  • 关注感受野空间特征:现有空间注意力机制如CBAM和CA仅关注空间特征,未充分考虑卷积核参数共享问题以及感受野中各特征的重要性。RFAConv的设计出发点是关注感受野空间特征,以提升网络性能。

    2.2 原理

    2.2.1 感受野空间特征的定义与生成

    感受野空间特征是针对卷积核设计的,根据卷积核大小动态生成。以3×3卷积核为例,它由非重叠滑动窗口组成,每个窗口代表一个感受野滑块。

在这里插入图片描述

2.2.2 基于感受野空间特征的注意力计算

  • 首先利用Group Conv快速提取感受野空间特征,然后通过AvgPool聚合全局信息,接着使用1×1组卷积操作交互信息,最后用softmax强调感受野特征内各特征的重要性。计算过程可表示为$F = Softmax(g^{1 × 1}(AvgPool(X)))× ReLU(Norm(g^{k × k}(X)))=A{rf}×F{rf}$。
  • 与CBAM和CA不同,RFA能够为每个感受野特征生成注意力图,从而解决了卷积核参数共享问题,并突出了感受野滑块内不同特征的重要性。

    2.3 结构

  • 整体结构:以3×3卷积核为例,RFAConv的整体结构包括输入特征图经过快速提取感受野空间特征(如Group Conv)、信息聚合(AvgPool)、信息交互(1×1组卷积)和特征重要性强调(softmax)等操作,最终得到注意力图与变换后的感受野空间特征相乘的结果。
  • 与其他模块的关系RFAConv可视为一个轻量级的即插即用模块,它所设计的卷积操作可以替代标准卷积,与卷积操作紧密结合,相互依赖以提升网络性能。同时,基于RFA的思想还设计了升级版本的CBAM(RFCBAM)和CA(RFCA),其结构也与RFAConv类似,都注重感受野空间特征,在提取特征信息时使用特定的卷积操作(如对于RFCBAM和RFCA,最终使用$k×k$且步长$=k$的卷积操作)。

在这里插入图片描述

2.4 优势

  • 性能提升
    • 在分类任务中,如在ImageNet - 1k数据集上的实验,RFAConv替换ResNet18和ResNet34的部分卷积操作后,仅增加少量参数和计算开销,就显著提高了识别结果。例如ResNet18 - RFAConv相比原始模型仅增加0.16M参数和0.09G计算开销,TOP1和TOP5准确率分别提高1.64%和1.24%。
    • 在对象检测任务中,在COCO2017和VOC7 + 12数据集上的实验表明,使用RFAConv替换部分卷积操作,网络的检测结果显著提升,同时参数和计算开销增加较小。
    • 在语义分割任务中,在VOC2012数据集上的实验显示,RFAConv构造的语义分割网络相比原始模型有更好的结果。
  • 解决参数共享问题:通过关注感受野空间特征,RFAConv完全解决了卷积核参数共享问题,使得卷积操作不再依赖于共享参数,提高了网络对不同位置信息的敏感性。
  • 计算成本和参数增加可忽略RFAConv在提升网络性能的同时,带来的计算成本和参数增加几乎可以忽略不计,相比一些其他方法具有更好的性价比。

论文:https://arxiv.org/pdf/2304.03198
源码:https://github.com/Liuchen1997/RFAConv

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144024424

相关文章
|
机器学习/深度学习 算法 固态存储
最强DETR+YOLO | 三阶段的端到端目标检测器的DEYOv2正式来啦,性能炸裂!!!
最强DETR+YOLO | 三阶段的端到端目标检测器的DEYOv2正式来啦,性能炸裂!!!
699 0
|
机器学习/深度学习 资源调度 计算机视觉
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
642 2
RT-DETR改进入门篇 | 手把手讲解改进模块如何实现高效涨点,以SimAM注意力模块为例
|
关系型数据库 MySQL Linux
CentOS 7.x 卸载删除MariaDB,重新安装
CentOS 7.x 卸载删除MariaDB,重新安装
718 0
|
计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
482 9
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力yolov11精度提升
YOLOv11改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力yolov11精度提升
346 0
YOLOv11改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力yolov11精度提升
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
842 2
YOLOv11改进策略【注意力机制篇】| ICLR2023 高效计算与全局局部信息融合的 Sea_Attention 模块(含C2PSA二次创新)
|
Linux 虚拟化 iOS开发
Windows Server 2025 OVF (2025 年 6 月更新) - VMware 虚拟机模板
Windows Server 2025 OVF (2025 年 6 月更新) - VMware 虚拟机模板
504 0
|
人工智能
YOLOv11改进策略【损失函数篇】| 2024 引进Focaler-IoU损失函数 加强边界框回归 (Focaler-DIoU、Focaler-GIoU、Focaler-CIoU)
YOLOv11改进策略【损失函数篇】| 2024 引进Focaler-IoU损失函数 加强边界框回归 (Focaler-DIoU、Focaler-GIoU、Focaler-CIoU)
2446 4
|
知识图谱
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
399 8
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
|
并行计算 数据挖掘 PyTorch
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器
【YOLOv8改进 - 特征融合】DySample :超轻量级且高效的动态上采样器

热门文章

最新文章

下一篇
开通oss服务