YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)

简介: YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)

一、本文介绍

本文记录的是利用CloFormer中的Clo block优化YOLOv11的网络模型Clo block的作用在于采用双分支结构,同时包含了局部分支和全局分支,克服了现有轻量级模型在处理高频局部信息时的不足。相比一些只注重设计稀疏注意力来处理低频全局信息或仅使用单一类型权重处理局部信息的方法,能更好地表达网络特征。本文将其加入到v11中,并进行二次创新,来综合高低频信息,更好地突出重要特征,从而提升模型在各种视觉任务中的性能。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、CloFormer模块介绍

Rethinking Local Perception in Lightweight Vision Transformer

2.1 设计出发点

现有轻量级模型在处理高频局部信息时存在不足。大多数方法只注重设计稀疏注意力来处理低频全局信息,处理高频局部信息的方法相对简单。例如,一些模型只用原始卷积提取局部表示,仅使用全局共享权重;另一些模型虽在窗口内使用注意力获取高频信息,但只使用特定于每个token的上下文感知权重。

CloFormer旨在同时利用共享权重和上下文感知权重的优势,更好地处理高频局部信息,所以设计了Clo block

2.2 原理

  • Clo block采用双分支结构,一个分支用于捕捉高频信息,另一个分支用于捕捉低频信息,然后将两个分支的输出融合,使模型能够同时感知高频和低频信息。

2.3 结构

2.3.1 局部分支(Local Branch)

采用精心设计的AttnConv算子

首先对输入进行线性变换得到QKV,然后对V使用深度可分离卷积(DWconv)进行局部特征聚合,其权重是全局共享的。接着对QK分别使用DWconv聚合局部信息,计算QK哈达玛积,并进行一系列线性或非线性变换生成在[-1, 1]范围内的上下文感知权重,最后用这些权重增强局部特征

在这里插入图片描述

2.3.2 全局分支(Global Branch)

  • KV进行下采样,然后执行标准的注意力过程($X{global }=Attntion\left(Q{g}, Pool\left(K{g}\right), Pool\left(V{g}\right)\right)$)来提取低频全局信息

在这里插入图片描述

2.4 优势

  • 更好的局部感知能力:与传统卷积相比,AttnConv利用上下文感知权重,能更好地适应输入内容进行局部感知;与局部自注意力相比,引入共享权重能更好地处理高频信息,且生成上下文感知权重的方法引入了更强的非线性,提高了性能。
  • 同时捕捉高低频信息双分支结构使模型能够同时捕捉高频和低频信息,这是现有很多轻量级模型所不具备的优势。

论文:https://arxiv.org/pdf/2303.17803
源码: https://github.com/qhfan/CloFormer

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143319720

相关文章
|
机器学习/深度学习 编解码 文件存储
YOLOv5改进 | 融合改进篇 | BiFPN+ RepViT(教你如何融合改进机制)
YOLOv5改进 | 融合改进篇 | BiFPN+ RepViT(教你如何融合改进机制)
1966 1
|
机器学习/深度学习 算法 Python
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
2498 1
【DYConv】CVPR2020 | 即插即用的动态卷积模块助力你涨点
|
机器学习/深度学习 编解码 算法
yolo原理系列——yolov1--yolov5详细解释
yolo原理系列——yolov1--yolov5详细解释
2124 0
yolo原理系列——yolov1--yolov5详细解释
|
机器学习/深度学习 编解码 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
956 11
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
|
机器学习/深度学习 数据采集 自然语言处理
深度学习实践技巧:提升模型性能的详尽指南
深度学习模型在图像分类、自然语言处理、时间序列分析等多个领域都表现出了卓越的性能,但在实际应用中,为了使模型达到最佳效果,常规的标准流程往往不足。本文提供了多种深度学习实践技巧,包括数据预处理、模型设计优化、训练策略和评价与调参等方面的详细操作和代码示例,希望能够为应用实战提供有效的指导和支持。
|
机器学习/深度学习 存储 TensorFlow
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
3257 11
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
|
机器学习/深度学习 计算机视觉 iOS开发
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
1034 12
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
3008 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
|
机器学习/深度学习 计算机视觉 索引
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
635 9
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】iRMB: 倒置残差移动块 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战案例,提出了一种融合CNN和Transformer优点的轻量级模型——倒置残差移动块(iRMB)。iRMB旨在平衡参数、运算效率与性能,适用于资源有限的移动端。通过集成多头自注意力和卷积,iRMB在ImageNet-1K等基准上超越SOTA,同时在iPhone14上展现出比EdgeNeXt快2.8-4.0倍的速度。此外,iRMB设计简洁,适用于各种计算机视觉任务,展示出良好的泛化能力。代码示例展示了iRMB模块的实现细节。更多详细信息和配置可在相关链接中找到。