YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT，增强空间信息的感知能力

2025-02-04 506

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT，增强空间信息的感知能力

一、本文介绍

本文记录的是将RMT应用于YOLOv11骨干网络的改进方法研究。RMT通过构建基于曼哈顿距离的空间衰减矩阵，引入显式空间先验，同时提出新的注意力分解形式，在不破坏空间衰减矩阵的前提下，以线性复杂度对全局信息进行稀疏建模。将RMT融入YOLOv11的骨干网络，能够有效提升其对图像空间信息的感知能力，在减少计算量的同时增强特征提取效果，进而提高YOLOv11在各项任务中的准确性与效率。

在YOLOv11的基础上配置了原论文中RMT_T，RMT_S，RMT_B, RMT_L四种模型，以满足不同的需求。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、RMT原理介绍

RMT:Retentive Networks Meet Vision Transformers

RMT模型是一种具有显式空间先验的视觉骨干网络，旨在解决Vision Transformer（ViT）中自注意力机制存在的问题。其结构设计的出发点、原理和优势如下：

2.1 出发点

ViT中的自注意力机制缺乏显式空间先验，且在对全局信息建模时具有二次计算复杂度，限制了ViT的应用。为缓解这些问题，作者从自然语言处理领域的Retentive Network（RetNet）中汲取灵感，提出RMT模型。

2.2 结构原理

Manhattan Self - Attention（MaSA）：将RetNet中的单向一维时间衰减扩展为双向二维空间衰减，基于曼哈顿距离引入显式空间先验。
- 通过从单向到双向衰减、从一维到二维衰减的转换，并结合Softmax函数，构建了MaSA机制。

在这里插入图片描述

为降低计算成本，提出一种分解方法，沿图像的两个轴分解自注意力和空间衰减矩阵，使每个令牌的感受野形状与完整MaSA的感受野形状相同，从而保留显式空间先验。

在这里插入图片描述

Local Context Enhancement（LCE）模块：为增强MaSA的局部表达能力，引入LCE模块，使用DWConv进一步提升模型性能。
整体架构：RMT基于MaSA构建，分为四个阶段。前三个阶段使用分解后的MaSA，最后一个阶段使用原始MaSA。同时，模型中融入了CPE（Conditional Positional Encodings），为模型提供灵活的位置编码和更多位置信息。

在这里插入图片描述

2.3 优势

性能优越：在多个视觉任务上表现出色，如在ImageNet - 1K图像分类任务中，RMT - S在仅4.5GFLOPs的计算量下，Top1准确率达到84.1%；RMT - B在相似计算量下，比iFormer高出0.4%。在COCO检测任务和ADE20K语义分割任务中也取得了优异成绩，RMT - L在COCO检测任务中，box AP达到51.6，mask AP达到45.9；在ADE20K语义分割任务中，RMT - L的mIoU达到52.8。
推理速度快：与其他先进的视觉骨干网络相比，RMT在速度和准确性之间实现了最佳权衡（表9展示了RMT与其他模型的推理速度比较）。

论文：https://arxiv.org/pdf/2309.11523
源码：https://github.com/qhfan/RMT

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/145115824

YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT，增强空间信息的感知能力

一、本文介绍

二、RMT原理介绍

2.1 出发点

2.2 结构原理

2.3 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT，增强空间信息的感知能力

一、本文介绍

二、RMT原理介绍

2.1 出发点

2.2 结构原理

2.3 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关课程

相关电子书