YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块

2025-02-07 424

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块

一、本文介绍

本文记录的是利用H-RAMi模块优化YOLOv11的目标检测网络模型。H-RAMi结合了对来自分层编码器阶段的多尺度注意力的处理能力和对语义信息的利用能力，有效地补偿了因下采样特征导致的像素级信息损失。本文将其应用到v11中，并进行二次创新，使网络能够在处理具有复杂结构或丰富语义信息的图像时，提升对不同尺度和不同内容的图像区域的恢复能力。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、H-RAMi 介绍

2.1 设计出发点

许多证据表明层次化网络对图像恢复（IR）任务通常不太有效，因为IR的目标是逐个预测像素值（密集预测），而缩小特征图会丢失重要的像素级信息。然而，层次化结构有降低时间复杂度以及学习语义级和像素级特征表示的优点。为了弥补缺点并利用优点，设计了H - RAMi层。
2.2 原理
H - RAMi层通过对来自分层编码器阶段的注意力进行处理，补偿因下采样特征导致的像素级信息损失，并利用语义级信息。它将不同层次阶段的多尺度注意力进行混合，重新考虑在给定输入特征图中应关注的位置和程度。
2.3 结构
如图c所示，H - RAMi接收来自分层阶段1、2、3、4中最后D - RAMiT块在层归一化（LN）之前由MobiVari合并的注意力。它首先将混合的二维注意力（输入）的分辨率上采样到$H×W$，然后将它们连接并由MobiVari混合。

在这里插入图片描述

2.4 优势

提高图像恢复精度：从图可以看出，阶段4的输出（b）在细粒度区域产生相对不清晰的边缘，这是由于像素级信息不如非层次化网络丰富。而H - RAMi通过利用像素级和语义级信息，在（c）处重建了关注区域并产生更清晰的边界，使得重新关注的特征图（d）包含更明显的边界，从而提高图像恢复精度。

在这里插入图片描述