一、本文介绍
本文聚焦于利用ASFF模块优化 YOLOv11检测头的目标检测网络模型。ASFF模块
通过自适应学习不同尺度特征图的空间融合权重,在训练过程中有效过滤冲突信息,增强特征的尺度不变性。在应用于YOLOv11
时,使得模型能够更合理地利用多尺度特征信息,避免因特征冲突导致的训练效率下降问题,从而提升YOLOv11
在复杂场景下对不同尺度目标的检测精度,增强模型的整体性能与鲁棒性。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、ASFF介绍
Learning Spatial Fusion for Single-Shot Object Detection
在目标检测中,处理多尺度物体是一个具有挑战性的问题。虽然特征金字塔或多级特征塔是解决多尺度问题的常用方法,但在单阶段检测器中,不同尺度特征之间的不一致性限制了其性能提升。为了解决这个问题,提出了自适应空间特征融合(ASFF)模块。
2.1 出发点
特征金字塔在单阶段检测器中存在不同尺度间的不一致性问题。
在检测物体时,通常采用启发式引导的特征选择,大物体与上层特征图关联,小物体与下层特征图关联,当一个物体在某一层特征图被视为正样本时,其他层对应区域被视为背景,这会导致特征冲突,干扰梯度计算,降低特征金字塔的有效性。
2.2 结构原理
2.2.1 特征调整(Feature Resizing)
在YOLO中,其有三个不同分辨率和通道数的特征层。对于某一层$l$,将其他层$n(n≠l)$的特征$x^{n}$调整为与$x^{l}$相同的形状。对于上采样,先应用$1×1$卷积层压缩通道数,再用插值法提升分辨率;对于下采样(如$1/2$比例),使用$3×3$卷积层(步长为$2$)同时修改通道数和分辨率;对于$1/4$比例的下采样,在$2$-步长卷积前添加一个$2$-步长最大池化层。
2.2.2 自适应融合(Adaptive Fusion)
设调整后的特征向量为$x{ij}^{n→l}$,融合公式为$$y_{ij}^{l}=\alpha_{ij}^{l}·x_{ij}^{1→l}+\beta_{ij}^{l}·x_{ij}^{2→l}+\gamma_{ij}^{l}·x_{ij}^{3→l}$$其中$\alpha{ij}^{l}$、$\beta{ij}^{l}$和$\gamma{ij}^{l}$是网络自适应学习的空间重要性权重,且$\alpha{ij}^{l}+\beta{ij}^{l}+\gamma{ij}^{l}=1$,$\alpha{ij}^{l}$、$\beta{ij}^{l}$、$\gamma{ij}^{l}∈[0,1]$。
通过$1×1$卷积层从$x^{1→l}$、$x^{2→l}$和$x^{3→l}$分别计算权重标量图$\lambda{\alpha}^{l}$、$\lambda{\beta}^{l}$和$\lambda_{\gamma}^{l}$,并通过标准反向传播学习。
2.3 优势**
- 可学习性:搜索最优融合的操作是可微的,能在反向传播中方便地学习。
- 模型无关性:对骨干模型无特定要求,可应用于具有特征金字塔结构的单阶段检测器。
论文:https://arxiv.org/pdf/1911.09516.pdf
源码:https://github.com/ruinmessi/ASFF
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: