YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域

简介: YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域

一、本文介绍

本文记录的是利用DAT可变形注意力模块优化YOLOv11的目标检测网络模型DAT全称为Deformable Attention Transformer,其作用在于通过可变形自注意力机制,同时包含了数据依赖的注意力模式,克服了常见注意力方法存在的内存计算成本高、受无关区域影响以及数据不可知等问题。相比一些只提供固定注意力模式的方法,能更好地聚焦于相关区域并捕捉更有信息的特征。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Deformable Attention Transformer介绍

Vision Transformer with Deformable Attention

2.1 出发点

  • 解决现有注意力机制的问题
    • 现有的Vision Transformers存在使用密集注意力导致内存和计算成本过高,特征可能受无关区域影响的问题。
    • Swin Transformer采用的稀疏注意力是数据不可知的,可能限制对长距离关系建模的能力。
  • 借鉴可变形卷积网络(DCN)的思想
    • DCN在CNN中通过学习可变形感受野,能在数据依赖的基础上选择性地关注更有信息的区域,取得了很好的效果,启发了在Vision Transformers中探索可变形注意力模式。

在这里插入图片描述

2.2 原理

  • 数据依赖的注意力模式
    • 通过一个偏移网络(offset network)根据输入的查询特征(query features)学习到参考点(reference points)偏移量(offsets),从而确定在特征图中需要关注的重要区域。
    • 这种方式使得注意力模块能够以数据依赖的方式聚焦于相关区域,避免了对无关区域的关注,同时也克服了手工设计的稀疏注意力模式可能丢失相关信息的问题。

2.3 结构

2.3.1 参考点生成

  • 首先在特征图上生成均匀网格的参考点$p \in \mathbb{R}^{H{G} ×W{G} ×2}$,网格大小是从输入特征图大小按因子$r$下采样得到的,即$H{G}=H / r$,$W{G}=W / r$。参考点的值是线性间隔的2D坐标,并归一化到$[-1, +1]$范围。

    2.3.2 偏移量计算

  • 将特征图线性投影得到查询令牌$q=x W{q}$,然后送入一个轻量级的子网$\theta{offset }(\cdot)$生成偏移量$\Delta p=\theta_{offset }(q)$。为了稳定训练过程,会对$\Delta p$的幅度进行缩放。

    2.3.3 特征采样与投影

    • 根据偏移量在变形点的位置对特征进行采样作为键(keys)和值(values),即$\tilde{k}=\tilde{x} W{k}$,$\tilde{v}=\tilde{x} W{v}$,其中$\tilde{x}=\phi(x ; p+\Delta p)$,采样函数$\phi(\cdot ; \cdot)$采用双线性插值。

      2.3.4 注意力计算

    • 对查询$q$和变形后的键$\tilde{k}$进行多头注意力计算,注意力头的输出公式为$z^{(m)}=\sigma\left(q^{(m)} \tilde{k}^{(m) \top} / \sqrt{d}+\phi(\hat{B} ; R)\right) \tilde{v}^{(m)}$,其中还考虑了相对位置偏移$R$和变形点提供的更强大的相对位置偏差$\phi(\hat{B} ; R)$。
      在这里插入图片描述

      2.4 优势

  • 灵活性和效率
    • 能够根据输入数据动态地确定关注区域,聚焦于相关信息,避免了对无关区域的计算和关注,提高了模型的效率。
    • 通过学习共享的偏移量,在保持线性空间复杂度的同时,实现了可变形的注意力模式,相比于直接应用DCN机制到注意力模块,大大降低了计算复杂度。
  • 性能优势
    • 在多个基准数据集上的实验表明,基于可变形注意力模块构建的Deformable Attention Transformer模型在图像分类、目标检测和语义分割等任务上取得了优于竞争基准模型的结果,如在ImageNet分类任务上,相比Swin Transformer在Top - 1准确率上有显著提升。

论文:https://openaccess.thecvf.com/content/CVPR2022/papers/Xia_Vision_Transformer_With_Deformable_Attention_CVPR_2022_paper.pdf
源码:https://github.com/LeapLabTHU/DAT

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143331440

相关文章
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
YOLOv11改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
4284 2
YOLOv11改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
|
机器学习/深度学习 C语言 计算机视觉
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
1307 11
YOLOv11改进策略【Neck】| HS-FPN:高级筛选特征融合金字塔,加强细微特征的检测
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
10937 58
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
3961 0
|
机器学习/深度学习 测试技术 TensorFlow
YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块
YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块
379 7
YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
4047 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
机器学习/深度学习 测试技术 计算机视觉
【YOLOv8改进】DAT(Deformable Attention):可变性注意力 (论文笔记+引入代码)
YOLO目标检测创新改进与实战案例专栏探讨了YOLO的有效改进,包括卷积、主干、注意力和检测头等机制的创新,以及目标检测分割项目的实践。专栏介绍了Deformable Attention Transformer,它解决了Transformer全局感受野带来的问题,通过数据依赖的位置选择、灵活的偏移学习和全局键共享,聚焦相关区域并捕获更多特征。模型在多个基准测试中表现优秀,代码可在GitHub获取。此外,文章还展示了如何在YOLOv8中应用Deformable Attention。
|
并行计算 PyTorch Shell
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
1435 11
YOLOv11改进策略【Neck】| 有效且轻量的动态上采样算子:DySample
|
计算机视觉
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
2857 10
YOLOv11改进策略【Neck】| GFPN 超越BiFPN 通过跳层连接和跨尺度连接改进v11颈部网络
|
机器学习/深度学习 算法 计算机视觉
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足
349 3
YOLOv11改进策略【Conv和Transformer】| 2024 AssemFormer 结合卷积与 Transformer 优势,弥补传统方法不足