【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力

简介: 【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力

YOLOv8目标检测创新改进与实战案例专栏

专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

image-20240723152139314

摘要

虽然卷积神经网络(CNNs)中使用自下而上的局部操作符与自然图像的一些统计特性很好地匹配,但这也可能阻止这些模型捕捉上下文的长程特征交互。在这项工作中,我们提出了一种简单且轻量的方法,以更好地在CNNs中利用上下文信息。我们通过引入一对操作符来实现这一目标:聚集(gather),该操作符高效地聚合来自大空间范围的特征响应;激发(excite),将汇集的信息重新分配给局部特征。这些操作符在添加参数数量和计算复杂度方面都很便宜,并且可以直接集成到现有架构中以提高其性能。多个数据集上的实验表明,聚集-激发(gather-excite)操作符可以带来类似于增加CNN深度的好处,但成本仅为其一小部分。例如,我们发现带有聚集-激发操作符的ResNet-50在ImageNet上能够超越其101层的对应模型,而无需额外的可学习参数。我们还提出了一对参数化的聚集-激发操作符,这对进一步提高性能有帮助,并将其与最近引入的挤压-激励网络(Squeeze-and-Excitation Networks)联系起来,并分析这些变化对CNN特征激活统计的影响。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

Gather-Excite(简称GE)框架旨在增强卷积神经网络(CNNs)中对上下文的利用能力。它引入了两个主要操作符:gather和excite,这两个操作符协同工作,提高了网络捕获长距离特征交互的能力。

技术原理

1. 动机

传统的卷积神经网络主要使用局部操作符,这些操作符虽然高效,但在捕捉长距离依赖关系方面存在局限性。这是因为它们的感受野是局部的。尽管更深的层理论上具有更大的感受野,但实际上有效感受野要小得多。这一限制妨碍了CNN利用整个图像中分布的上下文信息。

2. Gather操作符 (ξG)

Gather操作符用于从较大的空间范围内聚合特征响应。它通过汇集广泛区域的信息,使网络能够收集上下文信息。这个操作符可以通过不同的池化方法实现,如平均池化,它对指定范围内的特征值进行平均。

3. Excite操作符 (ξE)

Excite操作符将聚合的信息重新分配给局部特征。这种重新分配通过根据聚合的上下文信息重新缩放原始输入特征来实现。Excite操作符使用门控机制(通常是sigmoid函数)来调整输入特征,使其受到聚合上下文的调节。

4. 在CNN中的整合

GE操作符轻量且易于整合到现有的CNN架构中。它们被插入到ResNet等网络的残差块中,就在与恒等分支求和之前。这样的整合提高了网络的表示能力,而不会显著增加计算负担。

实现细节

1. 无参数配对

在基础实现(GE-θ−)中,gather操作符使用平均池化来聚合特征,excite操作符使用sigmoid函数来调整这些聚合。这种方法不引入额外的可学习参数,并且显著提高了性能。

2. 参数化配对

为了进一步增强框架,参数化的gather操作符被引入,通过深度卷积来应用空间滤波到独立通道上。这种方法被称为GE-θ,为gather操作符添加了可学习参数,进一步提高了性能。

性能和优势

  1. ImageNet分类:实验表明,将GE操作符集成到ResNet-50中,其性能优于更深的ResNet-101,展示了上下文利用的效率。

  2. 泛化能力:GE框架在其他架构和任务中也表现出良好的泛化能力,如在MS COCO上的Faster R-CNN目标检测和CIFAR-10/100上的分类任务。

  3. 计算效率:这些操作符计算成本低,不会显著增加网络的参数数量或计算复杂度,适合资源受限的环境。

核心代码

task与yaml配置

详见:https://blog.csdn.net/shangyanaf/article/details/140637601

相关文章
|
7月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
481 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
7月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
261 3
RT-DETR改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
6月前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
483 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
9月前
|
机器学习/深度学习 网络架构
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
257 68
|
7月前
|
计算机视觉 Perl
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
197 10
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标
|
7月前
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
314 10
RT-DETR改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
|
7月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
276 9
YOLOv11改进策略【Neck】| ASF-YOLO 注意力尺度序列融合模块改进颈部网络,提高小目标检测精度
|
7月前
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
1789 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
7月前
|
机器学习/深度学习 编解码 移动开发
RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
131 5
RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
|
7月前
|
机器学习/深度学习 编解码 移动开发
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
199 7
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能

热门文章

最新文章