YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力

简介: YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力

一、本文介绍

本文记录的是将RMT应用于YOLOv11骨干网络的改进方法研究RMT通过构建基于曼哈顿距离的空间衰减矩阵,引入显式空间先验,同时提出新的注意力分解形式,在不破坏空间衰减矩阵的前提下,以线性复杂度对全局信息进行稀疏建模。将RMT入YOLOv11的骨干网络,能够有效提升其对图像空间信息的感知能力,在减少计算量的同时增强特征提取效果,进而提高YOLOv11在各项任务中的准确性与效率 。

YOLOv11的基础上配置了原论文中RMT_TRMT_SRMT_B, RMT_L四种模型,以满足不同的需求。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、RMT原理介绍

RMT:Retentive Networks Meet Vision Transformers

RMT模型是一种具有显式空间先验的视觉骨干网络,旨在解决Vision Transformer(ViT)自注意力机制存在的问题。其结构设计的出发点、原理和优势如下:

2.1 出发点

ViT中的自注意力机制缺乏显式空间先验,且在对全局信息建模时具有二次计算复杂度,限制了ViT的应用。为缓解这些问题,作者从自然语言处理领域的Retentive Network(RetNet)中汲取灵感,提出RMT模型

2.2 结构原理

  • Manhattan Self - Attention(MaSA):将RetNet中的单向一维时间衰减扩展为双向二维空间衰减,基于曼哈顿距离引入显式空间先验
    • 通过从单向到双向衰减、从一维到二维衰减的转换,并结合Softmax函数,构建了MaSA机制

在这里插入图片描述

  • 为降低计算成本,提出一种分解方法,沿图像的两个轴分解自注意力和空间衰减矩阵,使每个令牌的感受野形状与完整MaSA的感受野形状相同,从而保留显式空间先验

在这里插入图片描述

  • Local Context Enhancement(LCE)模块:为增强MaSA局部表达能力,引入LCE模块,使用DWConv进一步提升模型性能。
  • 整体架构RMT基于MaSA构建,分为四个阶段。前三个阶段使用分解后的MaSA,最后一个阶段使用原始MaSA。同时,模型中融入了CPE(Conditional Positional Encodings)为模型提供灵活的位置编码和更多位置信息。

在这里插入图片描述

2.3 优势

  • 性能优越:在多个视觉任务上表现出色,如在ImageNet - 1K图像分类任务中,RMT - S在仅4.5GFLOPs的计算量下,Top1准确率达到84.1%;RMT - B在相似计算量下,比iFormer高出0.4%。在COCO检测任务和ADE20K语义分割任务中也取得了优异成绩,RMT - L在COCO检测任务中,box AP达到51.6,mask AP达到45.9;在ADE20K语义分割任务中,RMT - L的mIoU达到52.8。
  • 推理速度快:与其他先进的视觉骨干网络相比,RMT在速度和准确性之间实现了最佳权衡(表9展示了RMT与其他模型的推理速度比较)。

论文:https://arxiv.org/pdf/2309.11523
源码:https://github.com/qhfan/RMT

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145115824

目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
本文将BSSNN扩展至反向推理任务,即预测X∣y,这种设计使得模型不仅能够预测结果,还能够探索特定结果对应的输入特征组合。在二元分类任务中,这种反向推理能力有助于识别导致正负类结果的关键因素,从而显著提升模型的可解释性和决策支持能力。
200 42
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
|
7月前
|
机器学习/深度学习 编解码 自动驾驶
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
227 3
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
7月前
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
251 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
7月前
|
机器学习/深度学习 编解码 TensorFlow
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
389 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
|
7月前
|
机器学习/深度学习 计算机视觉 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
266 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2023 FasterNet 高效快速的部分卷积块
|
7月前
|
机器学习/深度学习 计算机视觉 iOS开发
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
357 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 RepViT 轻量级的Vision Transformers架构
|
7月前
|
机器学习/深度学习 自动驾驶 计算机视觉
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
311 61
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V1 基于 Ghost Module 和 Ghost Bottlenecks的轻量化网络结构
|
7月前
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
213 2
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
|
7月前
|
机器学习/深度学习 文件存储 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
143 1
|
7月前
|
机器学习/深度学习 编解码 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
144 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注

热门文章

最新文章