RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制

简介: RT-DETR改进策略【RT-DETR和Mamba】| MLLA:Mamba-Like Linear Attention,融合Mamba设计优势的注意力机制

一、本文介绍

本文记录的是利用MLLA模块优化RT-DETR的目标检测网络模型MLLA模块具有独特优势。它不同于传统模块,能同时兼顾局部特征高效建模与长距离交互学习。常见模块要么在局部特征处理上有优势但长距离交互能力弱,要么反之,而MLLA模块克服了此问题。它融合了Mamba模型线性注意力机制的优势,通过独特的结构设计,能够在保持计算效率的同时,精准地建模局部特征并学习长距离交互信息。本文将其用于RT-DETR的模型改进和二次创新,能够更加关注图像中的重要特征区域,抑制背景等无关信息的干扰,从而突出目标物体的关键特征。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、MLLA模块介绍

Demystify Mamba in Vision: A Linear Attention Perspective

2.1 出发点

在探索Mamba线性注意力Transformer关系时发现,Mamba的特殊设计中遗忘门和块设计对性能提升贡献大。MLLA模块旨在将这两个关键设计融入线性注意力,以提升其在视觉任务中的性能,同时保持并行计算和快速推理优势

2.2 原理

2.2.1 选择性状态空间模型(Selective SSM)与线性注意力的关联

  • 选择性SSM公式(如$h{i}=\tilde{A}{i}\odot h{i - 1}+B{i}(\Delta{i}\odot x{i})$和$y{i}=C{i}h{i}+D\odot x{i}$)与单头线性注意力公式(如$S{i}=1\odot S{i - 1}+K{i}^{\top}(1\odot V{i})$和$y{i}=Q{i}S{i}/Q{i}Z{i}+0\odot x{i}$)相似。如下图,能直观看到两者结构上的相似性,进而理解将选择性SSM视为线性注意力特殊变体的依据
  • 其中$\Delta{i}$为输入门,$\tilde{A}{i}$为遗忘门,$D\odot x_{i}$是捷径,且选择性SSM无归一化且类似单头设计。

在这里插入图片描述

2.2.2 遗忘门的特性与作用

  • 遗忘门$\tilde{A}_{i}$元素值在0到1之间,产生局部偏差且提供位置信息,下图b中遗忘门平均值在不同层的情况可辅助理解其在不同层的作用特性。

在这里插入图片描述

  • 但遗忘门需循环计算,降低吞吐量,不适合非自回归视觉模型,不过可利用位置编码(如APELePECPERoPE)替代。下表中对比使用遗忘门不同位置编码时模型的性能,体现了位置编码替代遗忘门的可行性

在这里插入图片描述

2.2.3 块设计的改进

  • Mamba块设计结合H3Gated Attention,集成多种操作,比传统Transformer块设计更有效。
  • MLLA模块通过替换Transformer块中的注意力子块为Mamba的块设计,并用线性注意力替代选择性SSM,调整参数。

在这里插入图片描述

2.3 结构

MLLA模块结构基于上述原理,包含输入/输出投影、$Q/K$投影、门控投影、线性注意力、深度卷积(DWConv)和多层感知机(MLP)等组件,下图中是MLLA模型架构图,可清晰看到各组件在模块中的位置和连接关系。

数据先经投影,再通过线性注意力聚合信息,接着经深度卷积和门控机制处理,最后通过MLP非线性变换得到输出,以此往复。

在这里插入图片描述

2.4 优势

  1. 性能提升
    • 在图像分类(ImageNet - 1K数据集)、目标检测(COCO数据集)和语义分割(ADE20K数据集)等任务中表现出色,超过多种视觉Mamba模型。
  2. 计算效率高
    • 保持并行计算能力,推理速度快。与Mamba模型相比,MLLA模型推理速度显著提升。如MLLA模型比Mamba2D快4.5倍,比VMamba快1.5倍且准确性更好,处理高分辨率图像等任务更具优势。

论文:https://arxiv.org/pdf/2405.16605
源码: https://github.com/LeapLabTHU/MLLA

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144109956

目录
相关文章
|
8月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点
159 3
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-L !!! 最新的发文热点
|
8月前
|
算法 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
155 4
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-B !!! 最新的发文热点
|
8月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
486 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
8月前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
643 63
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
|
8月前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
555 12
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
|
8月前
|
机器学习/深度学习 数据可视化 算法
RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
465 5
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| 引入RT-DETR中的RTDETRDecoder,替换检测头
YOLOv11改进策略【Head】| 引入RT-DETR中的RTDETRDecoder,替换检测头
551 11
YOLOv11改进策略【Head】| 引入RT-DETR中的RTDETRDecoder,替换检测头
|
8月前
|
编解码 计算机视觉
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-T !!! 最新的发文热点
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-T !!! 最新的发文热点
93 2
RT-DETR改进策略【RT-DETR和Mamba】| 替换骨干 Mamba-RT-DETR-T !!! 最新的发文热点
|
8月前
|
编解码 计算机视觉
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
1154 7
YOLOv11改进策略【YOLO和Mamba】| 替换骨干 Mamba-YOLOv11-T !!! 最新的发文热点
|
8月前
|
机器学习/深度学习 自然语言处理 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
313 13
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力