YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性

简介: YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性

一、本文介绍

本文记录的是改进YOLOv11的损失函数,将其替换成Shape-NWDShape-NWD是一种用于目标检测中边界框回归的方法,它是在Shape-IoUNWD(Normalized Wasserstein Distance)的基础上进行改进的,主要为了更好地处理边界框回归中形状和尺度因素对回归结果的影响,特别是在小目标检测任务中。


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Shape-NWD设计原理

Shape-NWD是一种用于目标检测中边界框回归的方法,它是在Shape-IoUNWD(Normalized Wasserstein Distance)的基础上进行改进的,主要为了更好地处理边界框回归中形状和尺度因素对回归结果的影响,特别是在小目标检测任务中。

以下是关于Shape-NWD的详细介绍:

2.1 出发点

  1. 现有方法的局限性:传统的基于IoU的边界框回归方法(如IoU、GIoU、CIoU等)在计算损失时,主要考虑预测框和真实框(GT box)之间的几何关系,如重叠面积、中心点距离等,但忽略了边界框自身形状和尺度对回归结果的影响。在小目标检测场景下,这些方法对IoU值的敏感性问题更加突出
  2. 小目标检测的需求小目标在图像中所占像素较少,其特征相对不明显,使得准确检测小目标变得更加困难。因此,需要一种能够更精准地描述小目标边界框回归损失的方法,以提高小目标检测的性能。
  3. 形状和尺度因素的重要性:通过对边界框回归特性的分析发现,回归样本中边界框的形状和尺度差异会导致在相同偏差情况下IoU值的不同。对于小尺度边界框,其形状和偏差对IoU值的影响更为显著。因此,在设计小目标检测的边界框回归损失函数时,有必要考虑形状和尺度因素。

2.2 原理

基于Shape-IoU的改进Shape-NWDShape-IoU的思想融入到NWD中。Shape-IoU在计算损失时引入了与目标尺度相关的尺度因子(scale)以及与GT box 形状相关的水平和垂直方向的权重系数(ww和hh)。

2.2.1 NWD的基本形式

传统的NWD公式为$$D=\sqrt{(x_c - x_c^{gt})^2 + (y_c - y_c^{gt})^2 + \frac{(w - w^{gt})^2 + (h - h^{gt})^2}{weight^2}}$$$$NWD = e^{-\frac{D}{C}}$$其中$(x_c, y_c)$和$(x_c^{gt}, y_c^{gt})$分别是预测框和GT box的中心点坐标,$w$和$h$是预测框的宽和高,$w^{gt}$和$h^{gt}$是GT box的宽和高,$weight$是与数据集相关的常数,$C$也是与数据集相关的常数。

2.2.2 Shape-NWD的定义

$$B=\frac{(w - w_{gt})^2+(h - h_{gt})^2}{weight^2}$$其中$weight = 2$。
$$D=\sqrt{h_{h}\times(x_{c}-x_{c}^{gt})^2 + w_{w}\times(y_{c}-y_{c}^{gt})^2 + B}$$
$$NW{D}_{shape}=e^{-\frac{D}{C}}$$

  • 公式中(D)是一个综合的距离度量,$x{c}$和$y{c}$是预测框的中心点坐标,$x{c}^{gt}$和$y{c}^{gt}$是真实框的中心点坐标,$h{h}$和$w{w}$是与形状相关的系数,$w$和$h$是预测框的宽和高,$w{gt}$和$h{gt}$是真实框的宽和高)。
  • $C$是一个与数据集相关的常数。

2.2.3 原理分析

  1. 首先,计算$D$时综合考虑了预测框和真实框在中心点坐标差异宽高差异以及与形状相关的加权因素。$(x{c}-x{c}^{gt})^2$和$(y{c}-y{c}^{gt})^2$衡量了中心点的偏移,通过乘以$h{h}$和$w{w}$,使得在水平和垂直方向上可以根据形状因素对这种偏移进行不同程度的加权。例如,如果$h_{h}$较大,那么在垂直方向上的中心点偏移对$D$的贡献就会更大,这体现了对形状因素的考虑。
  2. $B$部分计算了宽高的差异,同样通过除以$weight^2$(这里$weight = 2$)进行了归一化处理,使得宽高差异在整个距离度量中具有合适的权重
  3. 然后,$e^{-\frac{D}{C}}$这个指数形式的计算起到了归一化强调差异的作用。当$D$越大(即预测框和真实框的差异越大)时,$-\frac{D}{C}$的值越小,$e^{-\frac{D}{C}}$的值就越接近0,这表示预测框和真实框在形状方面的匹配程度越低;反之,当$D$越小,$e^{-\frac{D}{C}}$的值越接近1,表示匹配程度越高。通过$C$这个与数据集相关的常数,可以根据数据集的特点调整这种对差异的敏感度。

2.3 优势体现

  • 形状和尺度敏感性:由于在计算$D$时考虑了形状相关系数$h{h}$、$w{w}$以及宽高差异$B$,Shape-NWD能够有效捕捉边界框形状和尺度的变化。对于不同形状(如长条形和正方形)和尺度的边界框,它可以根据这些因素更准确地计算损失,避免了传统方法仅依赖于简单几何关系(如IoU)而忽略形状和尺度影响的问题。在小目标检测中,小目标的形状和尺度变化对检测结果影响较大,Shape-NWD的这种敏感性能够更好地适应小目标的特性,提高小目标检测的准确性。
  • 归一化处理:$e^{-\frac{D}{C}}$的形式对距离$D$进行了归一化,使得Shape-NWD的值域在一定范围内(0到1之间),便于在损失函数计算和模型训练中进行比较和优化。这种归一化有助于稳定模型训练过程避免因距离度量值过大或过小而导致的梯度问题,提高模型的收敛速度和稳定性。
  • 适应性与泛化能力:通过引入与数据集相关的常数$C$,Shape-NWD可以根据不同数据集的特点进行调整。不同数据集可能包含具有不同形状和尺度分布的目标,$C$的值可以根据数据集的统计特性进行优化,从而使Shape-NWD在不同的目标检测任务中都能表现出较好的性能,具有较强的适应性和泛化能力。

论文:https://arxiv.org/pdf/2312.17663
源码:https://github.com/malagoutou/Shape-IoU


三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/143623947

目录
相关文章
|
1月前
|
计算机视觉
YOLOv11改进策略【小目标改进】| 2024-TOP 自适应阈值焦点损失(ATFL)提升对小目标的检测能力
YOLOv11改进策略【小目标改进】| 2024-TOP 自适应阈值焦点损失(ATFL)提升对小目标的检测能力
279 11
YOLOv11改进策略【小目标改进】| 2024-TOP 自适应阈值焦点损失(ATFL)提升对小目标的检测能力
|
1月前
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【注意力机制篇】| 2024 PPA 并行补丁感知注意模块,提高小目标关注度
YOLOv11改进策略【注意力机制篇】| 2024 PPA 并行补丁感知注意模块,提高小目标关注度
84 11
YOLOv11改进策略【注意力机制篇】| 2024 PPA 并行补丁感知注意模块,提高小目标关注度
|
1月前
|
计算机视觉
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
137 8
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
|
1月前
|
机器学习/深度学习 资源调度 计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2020 Strip Pooling 空间池化模块 处理不规则形状的对象 含二次创新
RT-DETR改进策略【卷积层】| CVPR-2020 Strip Pooling 空间池化模块 处理不规则形状的对象 含二次创新
37 5
RT-DETR改进策略【卷积层】| CVPR-2020 Strip Pooling 空间池化模块 处理不规则形状的对象 含二次创新
|
1月前
|
知识图谱
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
48 8
YOLOv11改进策略【Conv和Transformer】| 2023 引入CloFormer中的Clo block 双分支结构,融合高频低频信息(二次创新C2PSA)
|
1月前
|
编解码 算法 计算机视觉
YOLOv11改进策略【小目标改进】| 添加专用于小目标的检测层 附YOLOv1~YOLOv11的检测头变化详解
YOLOv11改进策略【小目标改进】| 添加专用于小目标的检测层 附YOLOv1~YOLOv11的检测头变化详解
170 11
|
1月前
|
机器学习/深度学习 资源调度 计算机视觉
YOLOv11改进策略【卷积层】| CVPR-2020 Strip Pooling 空间池化模块 处理不规则形状的对象 含二次创新
YOLOv11改进策略【卷积层】| CVPR-2020 Strip Pooling 空间池化模块 处理不规则形状的对象 含二次创新
45 0
YOLOv11改进策略【卷积层】| CVPR-2020 Strip Pooling 空间池化模块 处理不规则形状的对象 含二次创新
|
8月前
|
计算机视觉 网络架构
【YOLOv10改进-特征融合】YOLO-MS MSBlock : 分层特征融合策略
YOLOv10专栏介绍了YOLO-MS,一个优化多尺度目标检测的高效框架。YOLO-MS通过MS-Block和异构Kernel选择提升性能,平衡了计算复杂度与准确性。它在不依赖预训练的情况下,在COCO上超越同类模型,如YOLO-v7和RTMDet。MS-Block包含不同大小卷积的分支,用于增强特征表示。代码示例展示了MSBlock类的定义,用于处理不同尺度特征。该模块可应用于其他YOLO模型以提升性能。更多详情和配置参见相关链接。
|
5月前
|
算法 计算机视觉 Python
YOLOv8优改系列二:YOLOv8融合ATSS标签分配策略,实现网络快速涨点
本文介绍了如何将ATSS标签分配策略融合到YOLOv8中,以提升目标检测网络的性能。通过修改损失文件、创建ATSS模块文件和调整训练代码,实现了网络的快速涨点。ATSS通过自动选择正负样本,避免了人工设定阈值,提高了模型效率。文章还提供了遇到问题的解决方案,如模块载入和环境配置问题。
276 0
YOLOv8优改系列二:YOLOv8融合ATSS标签分配策略,实现网络快速涨点
|
8月前
|
机器学习/深度学习 前端开发 计算机视觉
【YOLOv10改进-特征融合篇】EVC(Explicit Visual Center): 中心化特征金字塔模块 | 小目标
YOLO目标检测专栏探讨了对YOLO框架的创新改进,如中心化特征金字塔(CFP)。CFP引入了空间显式视觉中心方案和全局集中特征规范,通过轻量级MLP与并行视觉中心机制强化特征表示,尤其利于小目标检测。在YOLOv5和YOLOX基础上,CFP实现性能提升。相关代码示例展示了EVCBlock的结构,整合了LVCBlock和LightMLPBlock。更多详情和配置参见[YOLO基础解析+创新改进+实战案例](https://blog.csdn.net/shangyanaf/category_12303415.html)。