YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头自注意力

简介: YOLOv11改进策略【Conv和Transformer】| CVPR-2024 Single-Head Self-Attention 单头自注意力

一、本文介绍

本文记录的是利用单头自注意力SHSA改进YOLOv11检测模型,详细说明了优化原因,注意事项等。传统的自注意力机制虽能提升性能,但计算量大,内存访问成本高,而SHSA==从根本上避免了多注意力头机制带来的计算冗余。并且改进后的模型在相同计算预算下,能够堆叠更多宽度更大的块,从而提高性能。==


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Single-Head Self-Attention介绍

2.1 出发点

  • 宏观设计层面:传统的高效模型大多采用$4×4$的patchify stem和4阶段配置,存在空间冗余,导致早期阶段速度瓶颈且内存访问成本高。研究发现采用更大步长的$16×16$patchify stem和3阶段设计可减少空间冗余,降低内存访问成本,提高性能。
  • 微观设计层面多注意力头机制(MHSA)在计算和应用注意力映射时虽能提升性能,但存在冗余。尤其在早期阶段部分头类似卷积操作,后期阶段头之间存在大量冗余,且多数现有方法处理头冗余需先训练完整网络再修剪,计算资源和内存消耗大。

    2.2 原理

  • 基于上述宏观和微观设计的分析结果,提出Single - Head Self - Attention(SHSA)模块。它仅在部分输入通道($C_{p}=rC$)上应用单头注意力层进行空间特征聚合,其余通道保持不变,默认$r = 1/4.6$。

2.3 结构

2.3.1 输入通道处理

将输入$X$按通道分为两部分$X{att}$和$X{res}$,其中$X{att}$包含$C{p}$个通道,$X{res}$包含$C - C{p}$个通道。

2.3.2 注意力计算

对$X{att}$应用注意力机制,计算$\tilde{X}{att}=Attention(X{att}W^{Q},X{att}W^{K},X{att}W^{V})$,其中$Attention(Q,K,V)=Softmax(QK^{\top}/\sqrt{d{qk}})V$,$d_{qk}$默认值为16。

2.3.3 输出拼接与投影

将$\tilde{X}{att}$和$X{res}$拼接得到$SHSA(X)=Concat(\tilde{X}{att},X{res})W^{O}$,最终投影应用于所有通道,确保注意力特征有效传播到剩余通道。

在这里插入图片描述

  1. 优势
    • 减少冗余:从根本上避免了多注意力头机制带来的计算冗余。
    • 降低内存访问成本:仅处理部分通道,减少了内存访问成本。
    • 提高性能:在相同计算预算下,能够堆叠更多宽度更大的块,从而提高性能。
    • 简化训练和推理过程:相比现有处理头冗余的方法,无需先训练完整网络再修剪,训练和推理过程更加高效。

论文:https://arxiv.org/pdf/2401.16456
源码:https://github.com/ysj9909/SHViT

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142925365

相关文章
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
3622 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【卷积层】| ECCV-2024 小波卷积WTConv 增大感受野,降低参数量计算量,独家创新助力涨点
YOLOv11改进策略【卷积层】| ECCV-2024 小波卷积WTConv 增大感受野,降低参数量计算量,独家创新助力涨点
1324 0
YOLOv11改进策略【卷积层】| ECCV-2024 小波卷积WTConv 增大感受野,降低参数量计算量,独家创新助力涨点
|
机器学习/深度学习 数据可视化 算法
YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
2146 7
YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
|
编解码 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
1976 7
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
641 7
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
|
机器学习/深度学习 存储 TensorFlow
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
2999 11
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
|
机器学习/深度学习 算法 计算机视觉
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
2715 8
YOLOv11改进策略【SPPF】| SimSPPF,简化设计,提高计算效率
YOLOv11改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
YOLOv11改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
1373 4
YOLOv11改进策略【损失函数篇】| 通过辅助边界框计算IoU提升检测效果(Inner_GIoU、Inner_DIoU、Inner_CIoU、Inner_EIoU、Inner_SIoU)
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【注意力机制篇】| Mixed Local Channel Attention (MLCA) 同时融合通道、空间、局部信息和全局信息的新型注意力
YOLOv11改进策略【注意力机制篇】| Mixed Local Channel Attention (MLCA) 同时融合通道、空间、局部信息和全局信息的新型注意力
857 1
YOLOv11改进策略【注意力机制篇】| Mixed Local Channel Attention (MLCA) 同时融合通道、空间、局部信息和全局信息的新型注意力
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测

热门文章

最新文章