YOLOv11改进策略【Conv和Transformer】| ACmix 卷积和自注意力的结合,充分发挥两者优势

简介: YOLOv11改进策略【Conv和Transformer】| ACmix 卷积和自注意力的结合,充分发挥两者优势

一、本文介绍

本文记录的是利用ACmix改进YOLOv11检测模型,==卷积自注意力是两种强大的表示学习技术,本文利用两者之间潜在的紧密关系,进行二次创新,实现优势互补,减少冗余,通过实验证明,实现模型有效涨点。==


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、ACmix介绍

On the Integration of Self-Attention and Convolution

2.1 原理

2.1.1 卷积分解

传统的卷积可以分解为多个$1×1$卷积,然后是位移和求和操作。例如对于一个$k×k$的卷积核,可分解为$k^{2}$个$1×$卷积。

2.1.2 自注意力解释

自注意力模块中查询、键和值的投影可以看作是多个$1×1$卷积,然后计算注意力权重并聚合值。

2.1.3 相似性及主导计算复杂度

两个模块的第一阶段都包含类似的$1×1$卷积操作,并且这个第一阶段相比第二阶段在计算复杂度上占主导地位(与通道大小的平方相关),这为整合提供了理论基础。

2.2 结构

  • 第一阶段:输入特征图通过三个$1×1$卷积进行投影并重塑为$N$块,得到一组丰富的中间特征,包含$3×N$个特征图。
  • 第二阶段
    • 自注意力路径:将中间特征收集为$N$组,每组包含三个特征(来自每个$1×1$卷积),作为查询、键和值,按照传统的多头自注意力模块进行处理。
    • 卷积路径:对于卷积核大小为$k$的情况,采用一个轻量级全连接层并生成$k^{2}$个特征图,然后通过位移和聚合这些特征来处理输入特征,从局部感受野收集信息。
    • 最终输出:两条路径的输出相加,其强度由两个可学习的标量$\alpha$和$\beta$控制,即$F{out}=\alpha F{att}+\beta F_{conv}$。

2.3 优势

  • 计算效率
    • 理论上,在第一阶段的计算复杂度与通道大小相关,相比传统卷积(如$3×3$卷积),在第一阶段的计算成本与自注意力相似且更轻。在第二阶段虽然有额外计算开销,但复杂度与通道大小呈线性关系且相对第一阶段较小。
    • 通过改进位移和求和操作,如采用深度可分离卷积替代低效的张量位移,提高了模块的实际计算效率。
  • 性能优势:在图像识别和下游任务(如图像分类、语义分割和目标检测)上,与竞争基准相比,模型取得了持续改进的结果。
  • 灵活性和通用性
    • 模型可以自适应地调整卷积和自注意力路径的强度,根据网络中滤波器的位置灵活组合两个模块。
    • 可以应用于多种自注意力模式,如Patchwise attention、Window attention和Global attention等变体。

论文:https://arxiv.org/pdf/2111.14556
源码:https://github.com/LeapLabTHU/ACmix

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142929228

相关文章
|
机器学习/深度学习 编解码 移动开发
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
416 7
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
|
4月前
|
机器学习/深度学习 人工智能 监控
翻墙、攀爬、跨越围栏等违规行为检测数据集(10,000 张图片已划分)—安全检测实践
本数据集包含10,000张标注图片,专注翻墙、攀爬等违规行为检测,适用于YOLOv8模型训练。涵盖工地、校园等多种场景,支持智能安防、视频分析等应用,助力构建高效安全监控系统。
翻墙、攀爬、跨越围栏等违规行为检测数据集(10,000 张图片已划分)—安全检测实践
|
4月前
|
人工智能 运维 自然语言处理
国家网信办发布的第十四批深度合成算法备案综合分析报告
截至2025年11月,全国深度合成算法备案达5100款,广东以1329款居首,服务提供者占比77.1%。第14批新增680款创新高,医疗、教育、企业服务成主流方向,多模态与垂直领域加速发展,AI合规进入“政策+市场”双驱动新阶段。
|
3月前
|
人工智能 运维 搜索推荐
2025年度数字人公司推荐:数字人厂商技术、场景、口碑全对比
数字人行业正加速迈向规模化应用,2025年进入全场景商用新阶段。本文基于技术实力、核心优势与场景适配三大维度,权威评测主流厂商:世优科技以全栈自研、高效落地领跑;科大讯飞深耕教育,京东数字人聚焦电商直播,华享创联赋能文旅体验,天矢禾念引领虚拟偶像IP运营,展现多元发展格局。
450 0
|
8月前
|
安全 Linux API
Fmt库在CentOS 7的应用指南
Fmt库为C++提供了一个安全、高效的字符串格式化机制,尤其是对比传统的C风格字符串操作函数,Fmt库大幅提高了开发效率,减少了运行时错误。它的现代C++设计使得代码既简洁又表意清晰,大大降低了代码的维护难度。
348 11
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
2573 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
|
机器学习/深度学习 存储 TensorFlow
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
2889 11
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
|
机器学习/深度学习 人工智能 缓存
探秘 DeepSeek:那些你必须了解的事
DeepSeek是一家由中国幻方量化支持的创新型AI公司,专注于开发高性能、低成本的大语言模型。其独特的技术路径打破了参数规模、能耗成本和认知可靠性之间的“三元悖论”,实现了在单张显卡上运行170亿参数模型的突破。DeepSeek通过开源策略和高性价比模型(如DeepSeek-R1),大幅降低了AI应用门槛,推动了全球开发者社区的发展。其应用场景广泛覆盖教育、医疗、金融等领域,显著提升了工作效率和服务质量。DeepSeek的成功不仅在于技术创新,更在于其开放合作的理念,正引领AI行业的新变革。
2419 9
探秘 DeepSeek:那些你必须了解的事
|
机器学习/深度学习 计算机视觉 索引
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
551 9
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务