一、本文介绍
本文记录的是基于SCSA-CBAM注意力模块的YOLOv11目标检测改进方法研究。现有注意力方法在空间-通道协同方面未充分挖掘其潜力,缺乏对多语义信息的充分利用来引导特征和缓解语义差异。SCSA-CBAM注意力模块
构建一个空间-通道协同机制,==使空间注意力引导通道注意力增强综合学习,通道注意力从多语义水平调节更丰富的空间特定模式。==
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、SCSA原理
SCSA:空间注意与通道注意的协同效应研究
SCSA(Spatial and Channel Synergistic Attention)
是一种新颖的、即插即用的空间和通道协同注意力机制,其设计的原理和优势如下:
2.1 原理
- Shared Multi - Semantic Spatial Attention(SMSA):
- 空间和通道分解:将输入X沿高度和宽度维度分解,应用全局平均池化创建两个单向1D序列结构,然后将特征集划分为K个独立的子特征,每个子特征具有C / K个通道,便于高效提取多语义空间信息。
- 轻量级卷积策略:在四个子特征中应用核大小为3、5、7和9的深度一维卷积,以捕获不同的语义空间结构,并使用共享卷积来对齐,解决分解特征和应用一维卷积导致的有限感受野问题。使用Group Normalization对不同语义子特征进行归一化,最后使用Sigmoid激活函数生成空间注意力。
- Progressive Channel - wise Self - Attention(PCSA):
- 受ViT利用MHSA建模空间注意力中不同token之间相似性的启发,结合SMSA调制的空间先验来计算通道间相似性。
- 采用渐进压缩方法来保留和利用SMSA提取的多语义空间信息,并减少MHSA的计算成本。
- 具体实现过程包括池化、映射生成查询、键和值,进行注意力计算等。
- 协同效应:通过简单的串行连接集成SMSA和PCSA模块,空间注意力从每个特征中提取多语义空间信息,为通道注意力计算提供精确的空间先验;通道注意力利用整体特征图X来细化局部子特征的语义理解,缓解SMSA中多尺度卷积引起的语义差异。同时,不采用通道压缩,防止关键特征丢失。
2.2 优势
- 高效的SMSA:利用多尺度深度共享1D卷积捕获每个特征通道的多语义空间信息,有效整合全局上下文依赖和多语义空间先验。
- PCSA缓解语义差异:使用SMSA计算引导的压缩空间知识来计算通道相似性和贡献,缓解空间结构中的语义差异。
- 协同效应:通过维度解耦、轻量级多语义引导和语义差异缓解来探索协同效应,在各种视觉任务和复杂场景中优于当前最先进的注意力机制。
- 实验验证优势:
- 在图像分类任务中,SCSA在不同规模的网络中实现了最高的Top - 1准确率,且参数和计算复杂度较低,基于ResNet的推理速度仅次于CA,在准确性、速度和模型复杂度之间实现了较好的平衡。
- 在目标检测任务中,在各种检测器、模型大小和对象尺度上优于其他先进的注意力方法,在复杂场景(如小目标、黑暗环境和红外场景)中进一步证明了其有效性和泛化能力。
- 在分割任务中,基于多语义空间信息,在像素级任务中表现出色,显著优于其他注意力方法。
- 可视化分析:SCSA在相似的感受野条件下能明显关注多个关键区域,最大限度地减少关键信息丢失,为最终的下游任务提供丰富的特征信息,其协同设计在空间和通道域注意力计算中保留了关键信息,具有更优越的表示能力。
- 其他分析:SCSA具有更大的有效感受野,有利于网络利用丰富的上下文信息进行集体决策,从而提升性能;在计算复杂度方面,当模型宽度适当时,SCSA可以以线性复杂度进行推理;在推理吞吐量评估中,虽然SCSA比纯通道注意力略慢,但优于大多数混合注意力机制,在模型复杂性、推理速度和准确性之间实现了优化平衡。
论文:https://arxiv.org/pdf/2407.05128
源码:https://github.com/HZAI-ZJNU/SCSA
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: