RT-DETR改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块

简介: RT-DETR改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块

一、本文介绍

本文记录的是利用H-RAMi模块优化RT-DETR的目标检测网络模型H-RAMi结合了对来自分层编码器阶段的多尺度注意力的处理能力和对语义信息的利用能力,有效地补偿了因下采样特征导致的像素级信息损失。本文将其应用到RT-DETR中,并进行二次创新,使网络能够在处理具有复杂结构或丰富语义信息的图像时,提升对不同尺度和不同内容的图像区域的恢复能力


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、H-RAMi 介绍

2.1 设计出发点

  • 许多证据表明层次化网络对图像恢复(IR)任务通常不太有效,因为IR的目标是逐个预测像素值(密集预测),而缩小特征图会丢失重要的像素级信息。然而,层次化结构有降低时间复杂度以及学习语义级和像素级特征表示的优点。为了弥补缺点并利用优点,设计了H - RAMi层。

    2.2 原理

  • H - RAMi层通过对来自分层编码器阶段的注意力进行处理,补偿因下采样特征导致的像素级信息损失,并利用语义级信息。它将不同层次阶段的多尺度注意力进行混合,重新考虑在给定输入特征图中应关注的位置和程度。

    2.3 结构

  • 如图c所示,H - RAMi接收来自分层阶段1234中最后D - RAMiT块在层归一化(LN)之前由MobiVari合并的注意力。它首先将混合的二维注意力(输入)的分辨率上采样到$H×W$,然后将它们连接并由MobiVari混合。

在这里插入图片描述

2.4 优势

  • 提高图像恢复精度:从图可以看出,阶段4的输出(b)在细粒度区域产生相对不清晰的边缘,这是由于像素级信息不如非层次化网络丰富。而H - RAMi通过利用像素级语义级信息,在(c)处重建了关注区域并产生更清晰的边界,使得重新关注的特征图(d)包含更明显的边界,从而提高图像恢复精度

在这里插入图片描述

  • 高效利用资源H - RAMi在提高模型性能的同时,所需的额外操作和参数很少,分别最多只占总成本的3.01%和2.25%。

论文:https://arxiv.org/pdf/2305.11474
源码: https://github.com/rami0205/RAMiT

三、实现代码及RT-DETR修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144133742

相关文章
|
存储 Java
HashMap扩容机制详解
HashMap扩容机制详解
|
IDE Java Linux
Pycharm2022.2.3最新激活破解教程(永久激活)
pycharm破解直达:https://cloud.fynote.com/share/d/fG3ILUVAJ
30072 10
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
388 1
YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
|
机器学习/深度学习 编解码 PyTorch
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。核心算子是PConv,partial convolution,部分卷积,通过减少冗余计算和内存访问来更有效地提取空间特征。
10934 58
|
人工智能 API 开发者
HarmonyOS Next~鸿蒙应用框架开发实战:Ability Kit与Accessibility Kit深度解析
本书深入解析HarmonyOS应用框架开发,聚焦Ability Kit与Accessibility Kit两大核心组件。Ability Kit通过FA/PA双引擎架构实现跨设备协同,支持分布式能力开发;Accessibility Kit提供无障碍服务构建方案,优化用户体验。内容涵盖设计理念、实践案例、调试优化及未来演进方向,助力开发者打造高效、包容的分布式应用,体现HarmonyOS生态价值。
814 27
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
1368 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
556 9
YOLOv11改进策略【模型轻量化】| 替换骨干网络为 MobileViTv1高效的信息编码与融合模块,获取局部和全局信息
|
计算机视觉
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
317 5
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
|
机器学习/深度学习 资源调度 Java
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
711 1
YOLOv11改进策略【注意力机制篇】| 2024 SCI TOP FCAttention 即插即用注意力模块,增强局部和全局特征信息交互
|
计算机视觉
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2
774 0
YOLOv11改进策略【卷积层】| SAConv 可切换的空洞卷积 二次创新C3k2