RT-DETR改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

简介: RT-DETR改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务

一、本文介绍

本文记录的是利用直方图自注意力优化RT-DETR的目标检测方法研究。==在目标检测任务中,清晰准确的图像对于目标检测至关重要,本文创新方法通过恢复图像质量,可以减少因图像质量低导致的误检和漏检,实现有效涨点==。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、直方图自注意力介绍

2.1 设计出发点

  • 解决现有Transformer方法的局限:现有的基于Transformer的方法在处理恶劣天气图像恢复时,为了提高内存利用效率,通常将自注意力操作限制在固定的空间范围或仅仅在通道维度上,这种限制阻碍了Transformer对长距离空间特征的捕捉能力,从而影响了图像恢复的性能。
  • 利用天气退化特征:观察到天气引起的退化因素主要导致相似的遮挡和亮度变化,因此希望设计一种能够更好地处理这些特征的模块。

2.2 原理

2.2.1 动态范围直方图自注意力(DHSA)

  • 动态范围卷积:传统卷积操作的感受野范围有限,主要关注局部信息,与自注意力机制的长距离依赖建模能力不匹配。通过在传统卷积操作之前对输入特征进行重新排序,将其分为两个分支,对第一个分支的特征进行水平和垂直排序,然后与第二个分支的特征连接,再通过可分离卷积。这样可以将高强度和低强度的像素组织成矩阵对角线上的规则模式,使卷积能够在动态范围内进行计算,从而部分聚焦于保留干净信息和分别恢复退化特征。
  • 直方图自注意力机制:注意到天气引起的退化会导致相似的模式,不同强度的包含背景特征或天气退化的像素应给予不同程度的注意力。因此提出将空间元素分类到不同的bin中,并在bin内和bin间分配不同的注意力。

2.2.2 双尺度门控前馈(DGFF)模块

  • 考虑到之前的方法在标准前馈网络中通常使用单范围或单尺度卷积来增强局部上下文,但忽略了动态分布的天气引起的退化之间的相关性。因此设计了DGFF模块,它在传输过程中集成了两个不同的多范围和多尺度深度卷积路径,通过不同的卷积操作和门控机制来增强对多尺度和多范围信息的提取能力。

2.3 结构

  • 包含两个关键模块
    • DHSA模块:由动态范围卷积和直方图自注意力机制组成。动态范围卷积对输入特征进行重新排序,直方图自注意力机制对重新排序后的特征进行处理,包括将特征分为Value特征和Query - Key对,对Value特征进行排序并根据其索引对Query - Key对进行排列,然后将特征重塑为两种类型(bin - wise直方图重塑和frequency - wise直方图重塑),分别通过两种重塑方式和后续的自注意力过程,最后将输出元素相乘得到最终输出。
    • DGFF模块:输入张量首先经过点卷积操作增加通道维度,然后分为两个并行分支。在特征转换过程中,一个分支使用5×5深度卷积,另一个分支使用扩张的3×3深度卷积来增强多范围和多尺度信息的提取。第二个分支的输出经过激活后作为门控图作用于第一个分支,最后通过像素重排和逆重排操作以及点卷积得到输出并传递到下一个阶段。

在这里插入图片描述

2.4 优势

  • 有效捕捉动态范围的特征DHSA模块通过动态范围卷积和直方图自注意力机制,能够有效地捕捉天气引起的动态空间退化特征,实现对长距离空间特征的建模,克服了现有方法的局限性。
  • 提取多尺度和多范围信息DGFF模块通过集成两个不同的多范围和多尺度深度卷积路径,能够更好地提取图像中的多尺度和多范围信息,增强了对天气退化图像的恢复能力。
  • 提高图像恢复性能:通过上述两个模块的协同作用,Histogram Transformer Block能够提高恶劣天气图像恢复的性能,在多个数据集上取得了较好的效果。

论文:https://arxiv.org/pdf/2407.10172
源码:https://github.com/sunshangquan/Histoformer

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143873145

相关文章
|
机器学习/深度学习 人工智能 数据可视化
ShuffleNet:极致轻量化卷积神经网络(分组卷积+通道重排)
我们引入了一个高效计算的CNN结构名字叫做shuffleNet,这个结构被设计用来解决部署算力非常有限的移动设备问题,这个新的结构使用了两个新的操作,pointwise group convolution 和 channel shuffle能够在极大减少计算量的同时保持一定的精度。我们在ImageNet classification和MS COCO目标检测数据集上做实验论证了ShuffleNet和其他的结构相比有着很好的性能。比如,相比于mobilenet,shufflenet在ImageNet 分类任务上有着更低的top-1错误率(错误率是7.8%)需要的计算量为40MFLOPs。在一个AR
3815 0
ShuffleNet:极致轻量化卷积神经网络(分组卷积+通道重排)
|
机器学习/深度学习 计算机视觉 索引
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
539 9
YOLOv11改进策略【Conv和Transformer】| ECCV-2024 Histogram Transformer 直方图自注意力 适用于噪声大,图像质量低的检测任务
|
机器学习/深度学习 编解码 TensorFlow
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
617 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
|
机器学习/深度学习 存储 TensorFlow
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
2798 11
YOLOv11改进策略【Head】| (独家改进)轻量化检测头:利用 EfficientNet 中的移动倒置瓶颈模块 MBConv 改进检测头
|
计算机视觉
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
本文探讨了基于AIFI模块的YOLOv11目标检测改进方法。AIFI是RT-DETR中高效混合编码器的一部分,通过在S5特征层上应用单尺度Transformer编码器,减少计算成本并增强概念实体间的联系,从而提升对象定位和识别效果。实验表明,AIFI使模型延迟降低35%,准确性提高0.4%。
1489 20
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
|
并行计算 PyTorch Shell
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
1157 11
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
10660 58
|
XML JSON 数据可视化
数据集学习笔记(六):目标检测和图像分割标注软件介绍和使用,并转换成YOLO系列可使用的数据集格式
本文介绍了labelImg和labelme两款图像标注工具的安装、使用、数据转换和验证方法,适用于目标检测和图像分割任务,支持YOLO等数据集格式。
4834 2
数据集学习笔记(六):目标检测和图像分割标注软件介绍和使用,并转换成YOLO系列可使用的数据集格式
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换下采样模块 并二次创新ResNetLayer
RT-DETR改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换下采样模块 并二次创新ResNetLayer
255 6
RT-DETR改进策略【卷积层】| CVPR-2021 多样分支块DBB,替换下采样模块 并二次创新ResNetLayer
|
机器学习/深度学习 编解码 Java
YOLO11创新改进系列:卷积,主干 注意力,C3k2融合,检测头等创新机制(已更新100+)
《YOLO11目标检测创新改进与实战案例》专栏已更新100+篇文章,涵盖注意力机制、卷积优化、检测头创新、损失与IOU优化、轻量级网络设计等多方面内容。每周更新3-10篇,提供详细代码和实战案例,帮助您掌握最新研究和实用技巧。[专栏链接](https://blog.csdn.net/shangyanaf/category_12810477.html)
YOLO11创新改进系列:卷积,主干 注意力,C3k2融合,检测头等创新机制(已更新100+)