RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力

简介: RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力

一、本文介绍

本文记录的是将RMT应用于RT-DETR骨干网络的改进方法研究RMT通过构建基于曼哈顿距离的空间衰减矩阵,引入显式空间先验,同时提出新的注意力分解形式,在不破坏空间衰减矩阵的前提下,以线性复杂度对全局信息进行稀疏建模。将RMT入RT-DETR的骨干网络,能够有效提升其对图像空间信息的感知能力,在减少计算量的同时增强特征提取效果,进而提高RT-DETR在各项任务中的准确性与效率 。

RT-DETR的基础上配置了原论文中RMT_TRMT_SRMT_B, RMT_L四种模型,以满足不同的需求。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、RMT原理介绍

RMT:Retentive Networks Meet Vision Transformers

RMT模型是一种具有显式空间先验的视觉骨干网络,旨在解决Vision Transformer(ViT)自注意力机制存在的问题。其结构设计的出发点、原理和优势如下:

2.1 出发点

ViT中的自注意力机制缺乏显式空间先验,且在对全局信息建模时具有二次计算复杂度,限制了ViT的应用。为缓解这些问题,作者从自然语言处理领域的Retentive Network(RetNet)中汲取灵感,提出RMT模型

2.2 结构原理

  • Manhattan Self - Attention(MaSA):将RetNet中的单向一维时间衰减扩展为双向二维空间衰减,基于曼哈顿距离引入显式空间先验
    • 通过从单向到双向衰减、从一维到二维衰减的转换,并结合Softmax函数,构建了MaSA机制

在这里插入图片描述

  • 为降低计算成本,提出一种分解方法,沿图像的两个轴分解自注意力和空间衰减矩阵,使每个令牌的感受野形状与完整MaSA的感受野形状相同,从而保留显式空间先验

在这里插入图片描述

  • Local Context Enhancement(LCE)模块:为增强MaSA局部表达能力,引入LCE模块,使用DWConv进一步提升模型性能。
  • 整体架构RMT基于MaSA构建,分为四个阶段。前三个阶段使用分解后的MaSA,最后一个阶段使用原始MaSA。同时,模型中融入了CPE(Conditional Positional Encodings)为模型提供灵活的位置编码和更多位置信息。

在这里插入图片描述

2.3 优势

  • 性能优越:在多个视觉任务上表现出色,如在ImageNet - 1K图像分类任务中,RMT - S在仅4.5GFLOPs的计算量下,Top1准确率达到84.1%;RMT - B在相似计算量下,比iFormer高出0.4%。在COCO检测任务和ADE20K语义分割任务中也取得了优异成绩,RMT - L在COCO检测任务中,box AP达到51.6,mask AP达到45.9;在ADE20K语义分割任务中,RMT - L的mIoU达到52.8。
  • 推理速度快:与其他先进的视觉骨干网络相比,RMT在速度和准确性之间实现了最佳权衡(表9展示了RMT与其他模型的推理速度比较)。

论文:https://arxiv.org/pdf/2309.11523
源码:https://github.com/qhfan/RMT

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/145284102

目录
相关文章
|
2月前
|
安全 KVM 虚拟化
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
110 2
Cisco Identity Services Engine (ISE) 3.4 - 基于身份的网络访问控制和策略实施系统
|
2月前
|
机器学习/深度学习 数据采集 运维
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
匹配网络是一种基于度量的元学习方法,通过计算查询样本与支持集样本的相似性实现分类。其核心依赖距离度量函数(如余弦相似度),并引入注意力机制对特征维度加权,提升对关键特征的关注能力,尤其在处理复杂或噪声数据时表现出更强的泛化性。
120 6
匹配网络处理不平衡数据集的6种优化策略:有效提升分类准确率
|
3月前
|
机器学习/深度学习 数据采集 算法
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
本文将BSSNN扩展至反向推理任务,即预测X∣y,这种设计使得模型不仅能够预测结果,还能够探索特定结果对应的输入特征组合。在二元分类任务中,这种反向推理能力有助于识别导致正负类结果的关键因素,从而显著提升模型的可解释性和决策支持能力。
227 42
贝叶斯状态空间神经网络:融合概率推理和状态空间实现高精度预测和可解释性
|
21天前
|
监控 安全 Devops
DevOps 流水线的网络安全盲区与防御策略
在软件研发中,DevOps流水线加速了开发与交付,但也带来严重安全风险。自动化节点和第三方集成成为攻击入口,凭证泄露、供应链渗透、配置错误和依赖混乱等问题频发。企业需构建全流程安全体系,嵌入自动化安全策略,强化访问控制与监控,提升全员安全意识,实现效率与安全的协同发展。
318 0
|
3月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
87 4
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
227 17
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
179 10
|
10月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。
|
10月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,并提供一些实用的代码示例。通过阅读本文,您将了解到如何保护自己的网络安全,以及如何提高自己的信息安全意识。
190 10
|
10月前
|
监控 安全 网络安全
网络安全与信息安全:漏洞、加密与意识的交织
在数字时代的浪潮中,网络安全与信息安全成为维护数据完整性、保密性和可用性的关键。本文深入探讨了网络安全中的漏洞概念、加密技术的应用以及提升安全意识的重要性。通过实际案例分析,揭示了网络攻击的常见模式和防御策略,强调了教育和技术并重的安全理念。旨在为读者提供一套全面的网络安全知识框架,从而在日益复杂的网络环境中保护个人和组织的资产安全。

热门文章

最新文章