YOLOv5改进 | 2023注意力篇 | HAttention(HAT)超分辨率重建助力小目标检测 (全网首发)

简介: YOLOv5改进 | 2023注意力篇 | HAttention(HAT)超分辨率重建助力小目标检测 (全网首发)

一、本文介绍

本文给大家带来的改进机制是HAttention注意力机制,混合注意力变换器(HAT)的设计理念是通过融合通道注意力和自注意力机制来提升单图像超分辨率重建的性能。通道注意力关注于识别哪些通道更重要,而自注意力则关注于图像内部各个位置之间的关系。HAT利用这两种注意力机制,有效地整合了全局的像素信息,从而提供更为精确的结果(这个注意力机制挺复杂的光代码就700+行),但是效果挺好的也是10月份最新的成果非常适合添加到大家自己的论文中。

image.png

推荐指数:⭐⭐⭐⭐⭐(最新的改进机制)

专栏回顾:YOLOv5改进专栏——持续复现各种顶会内容——内含100+创新

二、HAttention框架原理

image.png

这篇论文提出了一种新的混合注意力变换器(Hybrid Attention Transformer, HAT)用于单图像超分辨率重建。HAT结合了通道注意力和自注意力,以激活更多像素以进行高分辨率重建。此外,作者还提出了一个重叠交叉注意模块来增强跨窗口信息的交互。论文还引入了一种同任务预训练策略,以进一步发掘HAT的潜力。通过广泛的实验,论文展示了所提出模块和预训练策略的有效性,其方法在定量和定性方面显著优于现有的最先进方法。

这篇论文的创新点主要包括:

1. 混合注意力变换器(HAT)的引入:它结合了通道注意力和自注意力机制,以改善单图像超分辨率重建。

2.重叠交叉注意模块:这一模块用于增强跨窗口信息的交互,以进一步提升超分辨率重建的性能。

3.同任务预训练策略:作者提出了一种新的预训练方法,专门针对HAT,以充分利用其潜力。

这些创新点使得所提出的方法在超分辨率重建方面的性能显著优于现有技术。

image.png

这个图表展示了所提出的混合注意力变换器(HAT)在不同放大倍数(x2, x3, x4)和不同数据集(Urban100和Manga109)上的性能对比。HAT模型与其他最先进模型,如SwinIR和EDT进行了比较。图表显示,HAT在PSNR(峰值信噪比)度量上,比SwinIR和EDT有显著提升。特别是在Urban100数据集上,HAT的改进幅度介于0.3dB到1.2dB之间。HAT-L是HAT的一个更大的变体,它在所有测试中都表现得非常好,进一步证明了HAT模型的有效性。

image.png

这幅图描绘了混合注意力变换器(HAT)的整体架构及其关键组成部分的结构。HAT包括浅层特征提取,深层特征提取,以及图像重建三个主要步骤。在深层特征提取部分,有多个残差混合注意力组(RHAG),每个组内包含多个混合注意力块(HAB)和一个重叠交叉注意块(OCAB)。HAB利用通道注意力块(CAB)和窗口式多头自注意力(W-MSA),在提取特征时考虑了通道之间和空间位置之间的相关性。OCAB进一步增强了不同窗口间特征的交互。最后,经过多个RHAG处理的特征通过图像重建部分,恢复成高分辨率的图像(这个在代码中均有体现,这个注意力机制代码巨长,700多行)。

2.1 混合注意力变换器(HAT)

混合注意力变换器(HAT)的设计理念是通过融合通道注意力和自注意力机制来提升单图像超分辨率重建的性能。通道注意力关注于识别哪些通道更重要,而自注意力则关注于图像内部各个位置之间的关系。HAT利用这两种注意力机制,有效地整合了全局的像素信息,从而提供更为精确的上采样结果。这种结合使得HAT能够更好地重建高频细节,提高重建图像的质量和精度。

image.png

这幅图表展示了不同超分辨率网络的局部归因图(LAM)结果,以及对应的性能指标。LAM展示了在重建高分辨率(HR)图像中标记框内区域时,输入的低分辨率(LR)图像中每个像素的重要性。扩散指数(DI)表示参与的像素范围,数值越高表示使用的像素越多。结果表明,HAT(作者的模型)在重建时使用了最多的像素,相比于EDSR、RCAN和SwinIR,HAT显示了最强的像素利用和最高的PSNR/SSIM性能指标。这表明HAT在精细化重建细节方面具有优势。

目录
相关文章
|
机器学习/深度学习 计算机视觉 网络架构
改进YOLOv8:添加CBAM注意力机制(涨点明显)
改进YOLOv8:添加CBAM注意力机制(涨点明显)
7595 1
YOLOv5改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(轻量化Neck、全网独家首发)
YOLOv5改进 | Neck篇 | 2024.1最新MFDS-DETR的HS-FPN改进特征融合层(轻量化Neck、全网独家首发)
927 4
|
机器学习/深度学习 编解码 PyTorch
【YOLOv8改进】HAT(Hybrid Attention Transformer,)混合注意力机制 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO系列的改进方法和实战应用,包括卷积、主干网络、注意力机制和检测头的创新。提出的Hybrid Attention Transformer (HAT)结合通道注意力和窗口自注意力,激活更多像素以提升图像超分辨率效果。通过交叉窗口信息聚合和同任务预训练策略,HAT优化了Transformer在低级视觉任务中的性能。实验显示,HAT在图像超分辨率任务上显著优于现有方法。模型结构包含浅层和深层特征提取以及图像重建阶段。此外,提供了HAT模型的PyTorch实现代码。更多详细配置和任务说明可参考相关链接。
|
9月前
|
计算机视觉
YOLOv11改进策略【小目标改进】| 2024-TOP 自适应阈值焦点损失(ATFL)提升对小目标的检测能力
YOLOv11改进策略【小目标改进】| 2024-TOP 自适应阈值焦点损失(ATFL)提升对小目标的检测能力
1564 11
YOLOv11改进策略【小目标改进】| 2024-TOP 自适应阈值焦点损失(ATFL)提升对小目标的检测能力
|
机器学习/深度学习 编解码 Java
YOLO11创新改进系列:卷积,主干 注意力,C3k2融合,检测头等创新机制(已更新100+)
《YOLO11目标检测创新改进与实战案例》专栏已更新100+篇文章,涵盖注意力机制、卷积优化、检测头创新、损失与IOU优化、轻量级网络设计等多方面内容。每周更新3-10篇,提供详细代码和实战案例,帮助您掌握最新研究和实用技巧。[专栏链接](https://blog.csdn.net/shangyanaf/category_12810477.html)
YOLO11创新改进系列:卷积,主干 注意力,C3k2融合,检测头等创新机制(已更新100+)
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv10改进-注意力机制】HAT(Hybrid Attention Transformer,)混合注意力机制
YOLOv10专栏介绍了一种名为HAT的新方法,旨在改善Transformer在图像超分辨率中的表现。HAT结合通道和窗口注意力,激活更多像素并增强跨窗口信息交互。亮点包括:1) 更多像素激活,2) 有效跨窗口信息聚合,3) 任务特定的预训练策略。HAT模型包含浅层特征提取、深层特征提取和图像重建阶段。提供的代码片段展示了HAT类的定义,参数包括不同层的深度、注意力头数量、窗口大小等。欲了解更多详情和配置,请参考给定链接。
|
机器学习/深度学习 算法 计算机视觉
【YOLOv8改进 - 注意力机制】RCS-OSA :减少通道的空间对象注意力,高效且涨点
YOLOv8专栏探讨了YOLO系列的创新改进,提出RCS-YOLO模型,它在脑肿瘤检测中超越YOLOv6/v7/v8,精度提升1%,速度增快60%(达到114.8 FPS)。RCS-OSA模块结合RepVGG/ShuffleNet优点,通过通道重参数化和混洗优化卷积,提升速度和准确性。代码和论文可在提供的链接获取。
|
机器学习/深度学习 算法 计算机视觉
YOLOv8改进 | 注意力机制 | 用于增强小目标感受野的RFEM
💡💡💡本专栏所有程序均经过测试,可成功执行💡💡
|
机器学习/深度学习 计算机视觉 网络架构
【YOLOv8改进 - 注意力机制】HCF-Net 之 PPA:并行化注意力设计 | 小目标
YOLO目标检测专栏介绍了HCF-Net,一种用于红外小目标检测的深度学习模型,它通过PPA、DASI和MDCR模块提升性能。PPA利用多分支特征提取和注意力机制,DASI实现自适应特征融合,MDCR通过多层深度可分离卷积细化空间特征。HCF-Net在SIRST数据集上表现出色,超越其他方法。论文和代码分别在[arxiv.org](https://arxiv.org/pdf/2403.10778)和[github.com/zhengshuchen/HCFNet](https://github.com/zhengshuchen/HCFNet)上。YOLOv8的PPA类展示了整合注意力机制的结构