RT-DETR改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化

简介: RT-DETR改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化

一、本文介绍

本文记录的是利用Triplet Attention模块优化RT-DETR的目标检测网络模型Triplet Attention的作用在于通过三个分支结构捕捉跨维度交互,同时包含通道信息和空间信息,克服了常见注意力方法中通道和空间分离计算以及未考虑跨维度交互维度缩减的问题。相比一些传统注意力机制,能更好地表达网络特征。本文将其应用到RT-DETR中,并进行二次创新,使网络能够综合多种维度信息,更好地突出重要特征,从而提升模型在不同任务中的性能。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Triplet Attention介绍

Rotate to Attend: Convolutional Triplet Attention Module

Triplet Attention Module是一种轻量级的注意力机制模块,以下是对其模块设计的出发点、原理、结构和优势的详细介绍:

2.1 出发点

  • 轻量级且高效的需求:现有的注意力机制如SECBAM等虽然有效,但存在一些问题。

    例如CBAM在计算通道注意力时存在维度缩减,导致通道间非线性局部依赖关系的捕捉存在冗余,且部分方法需要较多额外的可学习参数。作者希望研究一种轻量级但有效的注意力机制,在保持或提高性能的同时,减少计算开销和参数数量。

  • 强调跨维度交互的重要性:在计算注意力权重时,捕捉跨维度交互对于提供丰富的特征表示非常重要。作者观察到现有的一些方法如CBAM在通道注意力计算中未考虑跨维度交互,而这种交互对性能有积极影响。

2.2 原理

  • 跨维度交互原理:传统的通道注意力计算方法通常是为输入张量中的每个通道计算一个单一权重,然后使用该权重对特征图进行统一缩放。这种方法在计算通道注意力时,通常会通过全局平均池化将输入张量在空间上分解为每个通道一个像素,导致空间信息丢失,以及通道维度和空间维度之间的相互依赖关系缺失。Triplet Attention通过在三个分支中分别捕捉输入张量的不同维度组合($(C, H)$、$(C, W)$和$(H, W)$)之间的依赖关系来解决这个问题。

在这里插入图片描述

  • 注意力权重计算:对于每个分支,通过一系列操作计算注意力权重。首先对输入张量进行旋转操作,然后经过Z - pool层进行维度缩减,接着通过卷积层和批归一化层,最后通过sigmoid激活层生成注意力权重。这些权重用于对相应分支的特征进行加权,然后将三个分支的结果进行平均聚合,得到最终的输出张量。

2.3 结构

2.3.1 三个并行分支

  • 两个跨维度交互分支:其中两个分支分别负责捕捉通道维度与空间维度($H$或$W$)之间的跨维度交互

    在第一个分支中,输入张量沿$H$轴逆时针旋转90°,然后经过Z - pool层、卷积层、批归一化层和sigmoid激活层生成注意力权重,再将权重应用于旋转后的张量并顺时针旋转90°恢复原始形状。第二个分支类似,只是沿$W$轴旋转。

  • 一个空间注意力分支:最后一个分支类似于CBAM中的空间注意力模块,用于构建空间注意力。输入张量先经过Z - pool层,然后通过卷积层批归一化层,最后通过sigmoid激活层生成空间注意力权重并应用于输入张量。

    2.3.2 聚合操作

    三个分支的输出通过简单平均进行聚合,得到最终的精炼张量。
    在这里插入图片描述

2.4 优势

  • 计算开销小:在计算注意力权重时,以可忽略的计算开销捕捉到丰富的判别性特征表示。例如在ResNet - 50上进行实验,与其他注意力机制相比,Triplet Attention增加的参数和FLOP非常少,但能提高性能。
  • 强调跨维度交互且无维度缩减:与之前的方法不同,Triplet Attention强调跨维度交互的重要性,并且在计算过程中没有维度缩减,避免了通道和权重之间的间接对应关系,从而能够更好地捕捉特征之间的关系,提供更有效的特征表示。
  • 性能优势:在多种计算机视觉任务上表现出色,如在ImageNet - 1k图像分类任务、MSCOCO和PASCAL VOC数据集的目标检测任务中,能够匹配或超越其他类似的注意力机制技术,同时引入的额外模型参数数量最少。

论文:https://arxiv.org/pdf/2010.03045.pdf
源码: https://github.com/landskape-ai/triplet-attention

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144141081

相关文章
|
机器学习/深度学习 编解码 数据可视化
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
【即插即用】涨点神器AFF:注意力特征融合(已经开源,附论文和源码链接)
8715 1
|
监控 机器学习/深度学习 Shell
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| 引入RT-DETR中的RTDETRDecoder,替换检测头
YOLOv11改进策略【Head】| 引入RT-DETR中的RTDETRDecoder,替换检测头
1116 11
YOLOv11改进策略【Head】| 引入RT-DETR中的RTDETRDecoder,替换检测头
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
1104 10
RT-DETR改进策略【注意力机制篇】| 添加SE、CBAM、ECA、CA、Swin Transformer等注意力和多头注意力机制
|
6月前
|
存储 负载均衡 调度
从 FlashAttention 出发:八个值得关注的技术迭代方向
本内容探讨了 FlashAttention 的八大优化方向,涵盖分层归一化、动态分块、上下界筛除、等价 softmax 实现、KV-cache 压缩、异构精度布局、2.5D 并行及调度优化,旨在提升长序列处理效率与多卡协同能力。
285 7
|
编解码 算法 计算机视觉
YOLOv11改进策略【Head】| 增加针对 大目标 的检测层 (四个检测头)
YOLOv11改进策略【Head】| 增加针对 大目标 的检测层 (四个检测头)
2219 7
|
编解码 算法 计算机视觉
YOLOv8数据增强预处理方式详解:包括数据增强的作用,数据增强方式与方法
YOLOv8数据增强预处理方式详解:包括数据增强的作用,数据增强方式与方法
|
JavaScript Java 测试技术
基于springboot+vue.js+uniapp的网约车管理系统附带文章源码部署视频讲解等
基于springboot+vue.js+uniapp的网约车管理系统附带文章源码部署视频讲解等
328 2
基于springboot+vue.js+uniapp的网约车管理系统附带文章源码部署视频讲解等
|
传感器 人机交互 vr&ar
VR技术的基本原理与发展历程:探索虚拟现实的无限可能
【8月更文挑战第24天】VR技术作为一项具有广阔前景和巨大潜力的技术,正在不断改变着我们的世界。让我们共同期待VR技术在未来的更多精彩表现吧!
4304 2
|
NoSQL 关系型数据库 MySQL
多机部署:打造内网服务器集群
在多机部署教程中,了解如何配置分布式应用如Laravel以使用Redis同步用户状态。关键步骤包括:修改MySQL的`bind-address`至内网IP,重启服务;同样修改Redis的`bind`,重启服务;以及调整Elasticsearch的`network.host`和`discovery.seed_hosts`,并重启。通过这些步骤,确保服务间能内网通信,实现多服务器状态同步。
511 2

热门文章

最新文章