RT-DETR改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块

简介: RT-DETR改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块

一、本文介绍

本文记录的是利用H-RAMi模块优化RT-DETR的目标检测网络模型H-RAMi结合了对来自分层编码器阶段的多尺度注意力的处理能力和对语义信息的利用能力,有效地补偿了因下采样特征导致的像素级信息损失。本文将其应用到RT-DETR中,并进行二次创新,使网络能够在处理具有复杂结构或丰富语义信息的图像时,提升对不同尺度和不同内容的图像区域的恢复能力


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、H-RAMi 介绍

2.1 设计出发点

  • 许多证据表明层次化网络对图像恢复(IR)任务通常不太有效,因为IR的目标是逐个预测像素值(密集预测),而缩小特征图会丢失重要的像素级信息。然而,层次化结构有降低时间复杂度以及学习语义级和像素级特征表示的优点。为了弥补缺点并利用优点,设计了H - RAMi层。

    2.2 原理

  • H - RAMi层通过对来自分层编码器阶段的注意力进行处理,补偿因下采样特征导致的像素级信息损失,并利用语义级信息。它将不同层次阶段的多尺度注意力进行混合,重新考虑在给定输入特征图中应关注的位置和程度。

    2.3 结构

  • 如图c所示,H - RAMi接收来自分层阶段1234中最后D - RAMiT块在层归一化(LN)之前由MobiVari合并的注意力。它首先将混合的二维注意力(输入)的分辨率上采样到$H×W$,然后将它们连接并由MobiVari混合。

在这里插入图片描述

2.4 优势

  • 提高图像恢复精度:从图可以看出,阶段4的输出(b)在细粒度区域产生相对不清晰的边缘,这是由于像素级信息不如非层次化网络丰富。而H - RAMi通过利用像素级语义级信息,在(c)处重建了关注区域并产生更清晰的边界,使得重新关注的特征图(d)包含更明显的边界,从而提高图像恢复精度

在这里插入图片描述

  • 高效利用资源H - RAMi在提高模型性能的同时,所需的额外操作和参数很少,分别最多只占总成本的3.01%和2.25%。

论文:https://arxiv.org/pdf/2305.11474
源码: https://github.com/rami0205/RAMiT

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144133742

相关文章
|
存储 Java
HashMap扩容机制详解
HashMap扩容机制详解
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
356 1
YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
|
XML Java 数据库连接
Spring Boot的数据访问之Spring Data JPA以及Hibernate的实战(超详细 附源码)
Spring Boot的数据访问之Spring Data JPA以及Hibernate的实战(超详细 附源码)
892 0
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
10780 58
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
376 10
YOLOv11改进策略【Head】| (独家改进)结合 ICME-2024 中的PPA注意力模块,自研带有注意力机制的小目标检测头
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
515 9
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
|
计算机视觉
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
296 5
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
|
计算机视觉
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
708 0
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
|
搜索推荐 算法 UED
必应SEO优化步骤:提升网站在必应搜索引擎中的排名
本文深入剖析了必应(Bing)搜索引擎的优化策略,为网站管理员提供了一套完整的必应SEO优化步骤。文章内容兼具深度与独特见解,旨在帮助读者在激烈的网络竞争中脱颖而出。助力您的网站迈向更高的排名。
1364 3
必应SEO优化步骤:提升网站在必应搜索引擎中的排名
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】CAFM(Convolution and Attention Fusion Module):卷积和注意力融合模块
**HCANet: 高光谱图像去噪新方法** HCANet是一种结合CNN与Transformer的深度学习模型,专为高光谱图像设计。它使用卷积注意力融合模块(CAFM)捕捉局部和全局特征,并通过多尺度前馈网络(MSFN)增强多尺度信息聚合,提升去噪效果。CAFM包含卷积和注意力分支,整合局部细节与长距离依赖。代码已开源:[GitHub](https://github.com/summitgao/HCANet)。

热门文章

最新文章