RT-DETR改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形注意力 动态关注目标区域

简介: RT-DETR改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形注意力 动态关注目标区域

一、本文介绍

本文记录的是利用DAT可变形注意力模块优化RT-DETR的目标检测网络模型DAT全称为Deformable Attention Transformer,其作用在于通过可变形注意力机制,同时包含了数据依赖的注意力模式,克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法,能更好地聚焦于相关区域并捕捉更有信息的特征。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Deformable Attention Transformer介绍

Vision Transformer with Deformable Attention

2.1 出发点

  • 解决现有注意力机制的问题
    • 现有的Vision Transformers存在使用密集注意力导致内存和计算成本过高,特征可能受无关区域影响的问题。
    • Swin Transformer采用的稀疏注意力是数据不可知的,可能限制对长距离关系建模的能力。
  • 借鉴可变形卷积网络(DCN)的思想
    • DCN在CNN中通过学习可变形感受野,能在数据依赖的基础上选择性地关注更有信息的区域,取得了很好的效果,启发了在Vision Transformers中探索可变形注意力模式。

在这里插入图片描述

2.2 原理

  • 数据依赖的注意力模式
    • 通过一个偏移网络(offset network)根据输入的查询特征(query features)学习到参考点(reference points)偏移量(offsets),从而确定在特征图中需要关注的重要区域。
    • 这种方式使得注意力模块能够以数据依赖的方式聚焦于相关区域,避免了对无关区域的关注,同时也克服了手工设计的稀疏注意力模式可能丢失相关信息的问题。

2.3 结构

2.3.1 参考点生成

  • 首先在特征图上生成均匀网格的参考点$p \in \mathbb{R}^{H{G} ×W{G} ×2}$,网格大小是从输入特征图大小按因子$r$下采样得到的,即$H{G}=H / r$,$W{G}=W / r$。参考点的值是线性间隔的2D坐标,并归一化到$[-1, +1]$范围。

    2.3.2 偏移量计算

  • 将特征图线性投影得到查询令牌$q=x W{q}$,然后送入一个轻量级的子网$\theta{offset }(\cdot)$生成偏移量$\Delta p=\theta_{offset }(q)$。为了稳定训练过程,会对$\Delta p$的幅度进行缩放。

    2.3.3 特征采样与投影

    • 根据偏移量在变形点的位置对特征进行采样作为键(keys)和值(values),即$\tilde{k}=\tilde{x} W{k}$,$\tilde{v}=\tilde{x} W{v}$,其中$\tilde{x}=\phi(x ; p+\Delta p)$,采样函数$\phi(\cdot ; \cdot)$采用双线性插值。

      2.3.4 注意力计算

    • 对查询$q$和变形后的键$\tilde{k}$进行多头注意力计算,注意力头的输出公式为$z^{(m)}=\sigma\left(q^{(m)} \tilde{k}^{(m) \top} / \sqrt{d}+\phi(\hat{B} ; R)\right) \tilde{v}^{(m)}$,其中还考虑了相对位置偏移$R$和变形点提供的更强大的相对位置偏差$\phi(\hat{B} ; R)$。
      在这里插入图片描述

      2.4 优势

  • 灵活性和效率
    • 能够根据输入数据动态地确定关注区域,聚焦于相关信息,避免了对无关区域的计算和关注,提高了模型的效率。
    • 通过学习共享的偏移量,在保持线性空间复杂度的同时,实现了可变形的注意力模式,相比于直接应用DCN机制到注意力模块,大大降低了计算复杂度。
  • 性能优势
    • 在多个基准数据集上的实验表明,基于可变形注意力模块构建的Deformable Attention Transformer模型在图像分类、目标检测和语义分割等任务上取得了优于竞争基准模型的结果,如在ImageNet分类任务上,相比Swin Transformer在Top - 1准确率上有显著提升。

论文:https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf
源码:https://github.com/LeapLabTHU/DAT

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144103666

目录
相关文章
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
86 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
RT-DETR改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
69 19
RT-DETR改进策略【Conv和Transformer】| GRSL-2024最新模块 卷积和自注意力融合模块 CAFM 减少图像中的噪声干扰
|
1月前
|
机器学习/深度学习 测试技术 计算机视觉
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
68 14
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
|
1月前
|
计算机视觉 Perl
RT-DETR改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征,适应尺度变化大的目标
83 15
RT-DETR改进策略【卷积层】| CVPR-2024 PKI Module 获取多尺度纹理特征,适应尺度变化大的目标
|
1月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
RT-DETR改进策略【卷积层】| 利用MobileNetv4中的UIB、ExtraDW优化ResNetLayer
RT-DETR改进策略【卷积层】| 利用MobileNetv4中的UIB、ExtraDW优化ResNetLayer
65 12
RT-DETR改进策略【卷积层】| 利用MobileNetv4中的UIB、ExtraDW优化ResNetLayer
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
76 10
RT-DETR改进策略【Neck】| ECCV-2024 RCM 矩形自校准模块 优化颈部网络
|
1月前
|
机器学习/深度学习 资源调度 计算机视觉
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
123 6
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
|
1月前
|
机器学习/深度学习 PyTorch TensorFlow
RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
76 11
RT-DETR改进策略【卷积层】| SPD-Conv 针对小目标和低分辨率图像的检测任务
|
1月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升
RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升
69 10
RT-DETR改进策略【卷积层】| 引入注意力卷积模块RFAConv,关注感受野空间特征 助力RT-DETR精度提升
|
1月前
|
计算机视觉 Perl
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
54 10
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标