YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

简介: YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

一、本文介绍

本文记录的是利用直方图自注意力优化YOLOv11的目标检测方法研究。==在目标检测任务中,清晰准确的图像对于目标检测至关重要,本文创新方法通过恢复图像质量,可以减少因图像质量低导致的误检和漏检,实现有效涨点==。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、直方图自注意力介绍

2.1 设计出发点

  • 解决现有Transformer方法的局限:现有的基于Transformer的方法在处理恶劣天气图像恢复时,为了提高内存利用效率,通常将自注意力操作限制在固定的空间范围或仅仅在通道维度上,这种限制阻碍了Transformer对长距离空间特征的捕捉能力,从而影响了图像恢复的性能。
  • 利用天气退化特征:观察到天气引起的退化因素主要导致相似的遮挡和亮度变化,因此希望设计一种能够更好地处理这些特征的模块。

2.2 原理

2.2.1 动态范围直方图自注意力(DHSA)

  • 动态范围卷积:传统卷积操作的感受野范围有限,主要关注局部信息,与自注意力机制的长距离依赖建模能力不匹配。通过在传统卷积操作之前对输入特征进行重新排序,将其分为两个分支,对第一个分支的特征进行水平和垂直排序,然后与第二个分支的特征连接,再通过可分离卷积。这样可以将高强度和低强度的像素组织成矩阵对角线上的规则模式,使卷积能够在动态范围内进行计算,从而部分聚焦于保留干净信息和分别恢复退化特征。
  • 直方图自注意力机制:注意到天气引起的退化会导致相似的模式,不同强度的包含背景特征或天气退化的像素应给予不同程度的注意力。因此提出将空间元素分类到不同的bin中,并在bin内和bin间分配不同的注意力。

2.2.2 双尺度门控前馈(DGFF)模块

  • 考虑到之前的方法在标准前馈网络中通常使用单范围或单尺度卷积来增强局部上下文,但忽略了动态分布的天气引起的退化之间的相关性。因此设计了DGFF模块,它在传输过程中集成了两个不同的多范围和多尺度深度卷积路径,通过不同的卷积操作和门控机制来增强对多尺度和多范围信息的提取能力。

2.3 结构

  • 包含两个关键模块
    • DHSA模块:由动态范围卷积和直方图自注意力机制组成。动态范围卷积对输入特征进行重新排序,直方图自注意力机制对重新排序后的特征进行处理,包括将特征分为Value特征和Query - Key对,对Value特征进行排序并根据其索引对Query - Key对进行排列,然后将特征重塑为两种类型(bin - wise直方图重塑和frequency - wise直方图重塑),分别通过两种重塑方式和后续的自注意力过程,最后将输出元素相乘得到最终输出。
    • DGFF模块:输入张量首先经过点卷积操作增加通道维度,然后分为两个并行分支。在特征转换过程中,一个分支使用5×5深度卷积,另一个分支使用扩张的3×3深度卷积来增强多范围和多尺度信息的提取。第二个分支的输出经过激活后作为门控图作用于第一个分支,最后通过像素重排和逆重排操作以及点卷积得到输出并传递到下一个阶段。

在这里插入图片描述

2.4 优势

  • 有效捕捉动态范围的特征DHSA模块通过动态范围卷积和直方图自注意力机制,能够有效地捕捉天气引起的动态空间退化特征,实现对长距离空间特征的建模,克服了现有方法的局限性。
  • 提取多尺度和多范围信息DGFF模块通过集成两个不同的多范围和多尺度深度卷积路径,能够更好地提取图像中的多尺度和多范围信息,增强了对天气退化图像的恢复能力。
  • 提高图像恢复性能:通过上述两个模块的协同作用,Histogram Transformer Block能够提高恶劣天气图像恢复的性能,在多个数据集上取得了较好的效果。

论文:https://arxiv.org/pdf/2407.10172
源码:https://github.com/sunshangquan/Histoformer

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142940088

目录
相关文章
|
8月前
|
资源调度 自然语言处理 网络架构
YOLOv11改进策略【Neck】| 使用CARAFE轻量级通用上采样算子
YOLOv11改进策略【Neck】| 使用CARAFE轻量级通用上采样算子
582 11
YOLOv11改进策略【Neck】| 使用CARAFE轻量级通用上采样算子
|
8月前
|
机器学习/深度学习 测试技术 TensorFlow
YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块
YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块
243 7
YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
414 7
YOLOv11改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
|
8月前
|
机器学习/深度学习 文件存储 异构计算
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
891 18
YOLOv11改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔,增加针对小目标的检测头(附模块详解和完整配置步骤)
YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔,增加针对小目标的检测头(附模块详解和完整配置步骤)
1062 12
YOLOv11改进策略【Head】| AFPN渐进式自适应特征金字塔,增加针对小目标的检测头(附模块详解和完整配置步骤)
|
8月前
|
编解码 算法 计算机视觉
YOLOv11改进策略【Head】| 增加针对 大目标 的检测层 (四个检测头)
YOLOv11改进策略【Head】| 增加针对 大目标 的检测层 (四个检测头)
1314 7
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
9907 58
|
8月前
|
机器学习/深度学习 C语言 计算机视觉
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
736 11
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
|
9月前
|
计算机视觉
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
本文探讨了基于AIFI模块的YOLOv11目标检测改进方法。AIFI是RT-DETR中高效混合编码器的一部分,通过在S5特征层上应用单尺度Transformer编码器,减少计算成本并增强概念实体间的联系,从而提升对象定位和识别效果。实验表明,AIFI使模型延迟降低35%,准确性提高0.4%。
921 20
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制
1010 1
YOLOv11改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制