NWD-Based Model | 小目标检测新范式，抛弃IoU-Based暴力涨点(登顶SOTA)（一）-阿里云开发者社区

1问题刨析

小目标在许多现实世界的应用中无处不在，包括驾驶辅助、大规模监控和海上救援。尽管由于深度神经网络的发展，目标检测取得了显著的进展，但大多数都是用于检测正常大小的目标。而小目标(AI-TOD数据集中小于像素)往往表现出极其有限的外观信息，增加了识别特征的学习难度，导致小目标检测失败的案例非常多。

小目标检测(TOD)的研究进展主要集中在改进特征识别方面。为了提高小目标和相应特征的分辨率，对输入图像的尺度进行了归一化处理。而生成对抗网络(Generative Adversarial Network, GAN)则被提出直接生成小目标的超分辨表示。此外，提出了特征金字塔网络(Feature Pyramid Network, FPN)来学习多尺度特征，实现尺度不变检测器。事实上，现有的方法在一定程度上提高了TOD的性能，但提高精度通常也带来了额外的计算成本。

除了学习可判别特征外，训练样本选择的质量对于基于Anchor的小目标检测器来说也很重要，其中正/负标签的分配至关重要。然而，对于小目标，少量像素的属性会增加训练样本选择的难度。从图1可以看出，IoU对不同尺度的物体的敏感性差异很大。

具体来说，对于像素的小目标，轻微的位置偏差会导致明显的IoU下降(从0.53下降到0.06)，导致标签分配不准确。然而，对于像素的正常目标，IoU略有变化(从0.90到0.65)，位置偏差相同。此外，图2给出了4条不同目标尺度的IoU-Deviation曲线，随着目标尺度的减小，曲线下降速度更快。值得注意的是，IoU的敏感性来自于BBox位置只能离散变化的特殊性。

这种现象意味着IoU度量对离散位置偏差的目标尺度是变化的，最终导致标签分配存在以下2个缺陷（其中，IoU阈值用于Anchor-Based检测器中Pos/Neg训练样本的分配，(0.7,0.3)用于Region Proposal Network (RPN)）：

首先，由于IoU对小目标的敏感性，使得微小的位置偏差翻转Anchor标记，导致Pos/Neg样本特征相似，网络收敛困难；
其次，利用IoU度量，作者发现AI-TOD数据集中分配给每个Ground-Truth (GT)的平均正样本数小于1，因为GT与任何Anchor之间的IoU低于最小正阈值。

因此，训练小目标检测的监督信息不足。尽管ATSS等动态分配策略可以根据物体的统计特性自适应地获得分配Pos/Neg标签的IoU阈值，但IoU的敏感性使得小目标检测难以找到一个良好的阈值并提供高质量的Pos/Neg样本。

鉴于IoU不是一个很好的度量小目标的度量标准，本文提出了一种新的度量标准，用Wasserstein距离来度量BBox的相似性来代替标准IoU。具体来说：

首先，将包围盒建模为二维高斯分布；
然后，使用提出的Normalized Wasserstein Distance (NWD)来度量导出的高斯分布的相似性。

Wasserstein distance的主要优点是：

无论小目标之间有没有重叠都可以度量分布相似性;
NWD对不同尺度的目标不敏感，更适合测量小目标之间的相似性。

NWD可应用于One-Stage和Multi-Stage Anchor-Based检测器。此外，NWD不仅可以替代标签分配中的IoU，还可以替代非最大抑制中的IoU(NMS)和回归损失函数。在一个新的TOD数据集AI-TOD上的大量实验表明，本文提出的NWD可以持续地提高所有检测器的检测性能。

本文的贡献总结如下：

分析了IoU对小目标定位偏差的敏感性，提出了NWD作为衡量2个BBox之间相似性的更好的度量；
将NWD应用于Anchor-Based检测器的标签分配、NMS和损失函数，并设计了一个小目标检测器；
提出的NWD可以显著提高目前流行的Anchor-Based检测器的TOD性能，在AI-TOD数据集上Faster R-CNN实现了从11.1%到17.6%的性能提升。

2相关研究

2.1 小目标检测

以往的小目标检测方法大致可以分为3大类:

多尺度特征学习
设计更好的训练策略
基于GAN增强的检测

1、多尺度特征学习

一种简单而经典的方法是将输入图像的大小调整为不同的尺度，并训练不同的检测器，每一个检测器都能在一定的尺度范围内达到最佳性能。为了降低计算成本，一些研究尝试构建不同尺度的特征级金字塔。例如，SSD从不同分辨率的特征图中检测目标。特征金字塔网络(Feature Pyramid Network, FPN)采用横向连接的自顶向下结构，将不同尺度的特征信息结合起来，提高目标检测性能。在此基础上，提出了进一步提高FPN性能的方法，包括PANet、BiFPN、Recursive-FPN。此外，TridentNet构建了具有不同感受野的并行多分支体系结构，以生成特定比例的特征图。

2、更好的训练策略

Singh等人受到同时检测小目标和大目标很难的观察启发，提出了SNIP和SNIPER在一定规模范围内选择性训练目标。此外，Kim等人引入了Scale-Aware网络(SAN)，并将从不同空间提取的特征映射到一个尺度不变的子空间，使检测器对尺度变化具有更强的鲁棒性。

3、基于GAN增强的检测

Perceptual GAN是第一个尝试将GAN应用于小目标检测的算法，它通过缩小小目标与大目标的表示差异来改进小目标检测。此外，Bai等人提出了一种MT-GAN来训练图像级超分辨率模型，以增强小ROI的特征。此外，有研究提出了一种特征超分辨率方法来提高基于建议检测器的小目标检测性能。

2.2目标检测中的评价指标

IoU是度量边界框之间相似性的最广泛使用的度量方法。然而，IoU只能在边界框有重叠情况下的问题。为了解决这一问题，提出了一种Generalized IoU (GIoU)的方法，该方法通过最小外接边界框相关的惩罚项来实现。然而，当一个边界框包含另一个边界框时，GIoU将降级为IoU。因此，为了克服IoU和GIoU的局限性提出了DIoU和CIoU，它们考虑了重叠面积、中心点距离和纵横比这三个几何特性。

GIoU、CIoU和DIoU主要应用于NMS和loss function中代替IoU以提高总体目标检测性能，但在标签分配中的应用很少讨论。在相似工作中，Yang等人也提出了Gaussian Wasserstein Distance (GWD)损失用于Oriented目标检测，通过测量Oriented BBox的位置关系。然而，该方法的目的是解决Oriented目标检测中的边界不连续和square-like问题。本文的动机是为了减轻IoU对小目标位置偏差的敏感性，本文提出的方法可以在Anchor-Based的目标检测中取代IoU。

2.3 标签分配策略

将高质量的Anchor分配到GT小目标Box中是一项具有挑战性的任务。一个简单的方法是在选择正样本时降低IoU阈值。虽然可以使小目标匹配更多的Anchor，但训练样本的整体质量会下降。此外，最近的许多研究都试图使标签分配过程更具自适应性，以提高检测性能。例如，Zhang等人提出了自适应训练样本选择(Adaptive Training Sample Selection, ATSS)，通过一组Anchor的IoU统计值自动计算每个GT的Pos/Neg阈值。Kang等人通过假设Pos/Neg的联合损失分布服从高斯分布，引入了概率Anchor Assignment (PAA)。此外，Optimal Transport Assignment (OTA)将标签分配过程作为一个全局视角的最优运输问题。但这些方法都是利用IoU度量来度量2个BBox之间的相似性，主要关注标签分配中的阈值设置，不适合TOD。相比之下，本文的研究重点是设计一种更好的评价指标，用以替代小目标检测中的IoU指标。

3本文方法

IoU实际上是计算2个有限样本集相似度的Jaccard相似系数，受此启发，作者基于Wasserstein Distance设计了一个更好的度量小目标的度量方法，因为它可以一致地反映分布之间的距离，即使它们没有重叠。因此，在测量小目标之间的相似性方面，新度量比IoU具有更好的性能。具体内容如下。

3.1 为什么是Wasserstein Distance？

学好实变和测度论对机器学习是很有帮助的。对于暂时没有这些数学背景的同学，可以安全的把概率测度(probability measure)理解为概率分布(probability distribution)，只要关心的空间是。2个概率分布之间的距离有很多种描述方式，一个比较脍炙人口的是KL divergence:

尽管它严格意义上不是一个距离(比如不满足对称性)。

从定义可以看出，KL并不关心几何性质，因为p和q的比较都是在同一点进行的(换句话说，只要，KL并不关心的大小)。举个例子，考虑如下2个一维高斯分布：和，借蛮力可算出

q只是p的一个微小平移，但当平移量趋于0时，KL却blow up了。

这就激励我们定义一种分布间的距离，使其能够把的几何/度量性质也考虑进去。WassersteinDistance就做到了这一点，而且是高调的做到了这一点，因为显式的出现在了定义中。具体的，对于定义在上的概率分布和:

其中是一个上的联合分布，必须同时满足和是其边缘分布。可以是上的任意距离，比如欧式距离，L1 距离等等。举个特例，当和时，唯一符合条件的只有，所以，两个delta分布间的距离正好等于它们中心间的距离。

Wasserstein distance是可以定义2个support不重合，甚至一点交集都没有的分布之间的距离的，而KL在这种情况并不适用。

实际应用中Wasserstein distance的计算大都依赖离散化，因为目前只对有限的几个分布存在解析解。对于任意分布可以用delta分布来逼近，这里并不要求是唯一的。对于做同样的近似。。

为什么和的近似能够取相同的n？因为总是可以把当前的近似点拷贝几份然后renormalize，所以取n为两者原始近似点数量的最小公倍数即可。那么

这就变成了一个组合优化的问题。

def Wasserstein(mu, sigma, idx1, idx2):
    p1 = torch.sum(torch.pow((mu[idx1] - mu[idx2]),2),1)
    p2 = torch.sum(torch.pow(torch.pow(sigma[idx1],1/2) - torch.pow(sigma[idx2], 1/2),2) , 1)
    return p1+p2

3.2 BBox的高斯分布建模

对于小目标，由于大多数真实目标都不是严格意义上的矩形，所以它们的BBox中往往会有一些背景像素。在这些BBox中，前景像素和背景像素分别集中在BBox的中心和边界上。为了更好地描述BBox中不同像素的权重，可以将BBox建模为二维高斯分布，其中BBox中心像素的权重最高，像素的重要性从中心到边界递减。具体来说，对于水平边框，其中，和分别表示中心坐标、宽度和高度。它的内接椭圆方程可以表示为：

在为椭圆的中心坐标，σσ为沿x、y轴的半轴长度。因此，，，σ，σ。

二维高斯分布的概率密度函数为:

其中x、µ、为coordinate、的均值向量和高斯分布的协方差矩阵。当

式1中的椭圆将是二维高斯分布的密度轮廓。因此，水平边界框可以建模为二维高斯分布µ，其中：

此外，边界框A和B之间的相似性可以转化为2个高斯分布之间的分布距离。

3.3 Normalized Gaussian Wasserstein Distance

使用Optimal Transport理论中的Wasserstein distance来计算分布距离。对于2个二维高斯分布，和，和之间的Wasserstein distance为:

上式可以简化为:

其中，是Frobenius norm。

此外，对于由BBox 和建模的高斯分布和，上式可进一步简化为：

但是是一个距离度量，不能直接用作相似性度量(即0-1之间的值作为IoU)。因此，使用它的指数形式归一化，得到了新的度量，称为Normalized Wasserstein Distance(NWD):

其中C是与数据集密切相关的常数。在接下来的实验中，设置C到AI-TOD的平均绝对大小并达到最佳性能。此外，观察到C在一定范围内是稳健的，细节将在补充材料中显示。

与IoU相比，NWD在检测小目标方面具有以下优点:

尺度不确定性;
位置偏差平滑性;
测量非重叠或相互包容的边界盒之间的相似性。

如图2所示，在不失通用性的前提下，在以下2种情况下讨论度量值的变化。

在图2的第1行中，保持Box A和Box B的尺度相同，而将Box B沿A的对角线移动。可以看出，这4条NWD曲线完全重合，说明NWD对Box的尺度方差不敏感。此外，可以观察到IoU对微小的位置偏差过于敏感，而位置偏差导致的NWD变化更为平滑。对位置偏差的平滑性表明，在相同阈值下，Pos/Neg样本之间可能比IoU有更好的区分。

在图2的第2行中，在B的边长一半位置延对角线方法A，与IoU相比，NWD的曲线更加平滑，能够一致地反映A与B之间的相似性。

3.4 NWD-based Detectors

提出的NWD可以很容易地集成到任何Anchor-Based Detectors，以取代IoU。在不失一般性的前提下，本文采用了具有代表性的基于Anchor的Faster R-CNN来描述的NWD用法。

具体来说，所有的修改都是在IoU最初使用的3个部分进行的，包括pos/neg label assignment, NMS和Regression loss function。

具体内容如下：

1、NWD-based Label Assignment

Faster R-CNN由2个网络组成:

用于生成区域建议的RPN
基于区域建议检测目标的R-CNN

RPN和R-CNN都包含标签分配过程。

对于RPN，首先生成不同尺度和比例的Anchor，然后给Anchor分配二值标签，训练分类和回归头。

对于R-CNN，标签分配过程与RPN相似，不同之处在于R-CNN的输入就是RPN的输出。

为了克服IoU在小目标检测中的上述缺点，设计了基于NWD的标签分配策略，利用NWD来分配标签。

具体来说，训练的RPN，positive标签将被分配到2种类型的Anchor:

The anchor with the highest NWD value with a gt box and the NWD value is larger than θ；
The anchor that has the NWD value higher than the positive threshold θ with any gt 。

因此，如果Anchor的NWD值低于负阈值θ(所有gt Box)，则将给Anchor分配负标签。此外，既没有被分配正标签也没有被分配负标签的Anchor不参与训练过程。需要注意的是，为了将NWD直接应用到Anchor-Based检测器中，实验中使用了原始检测器的θ和θ。

2、NWD-based NMS

NMS是目标检测中不可或缺的一部分，用于抑制冗余预测边界框，其中应用了IoU度量。首先，它根据得分对所有预测框进行排序。选择得分最高的预测框M，并抑制与M有显著重叠(使用预定义的阈值Nt)的所有其他预测框。这个过程递归地应用于其余的框。但是，IoU对小目标的敏感性会使许多预测框的IoU值低于Nt，从而导致假阳性预测。

为了解决这一问题，作者认为NWD在小目标检测中是一个更好的NMS标准，因为NWD克服了尺度敏感性问题。此外，只需要几个代码，基于NWD的NMS就可以灵活地集成到任何小目标检测器。

3、NWD-based Regression Loss

IoU-Loss的引入是为了消除训练和测试之间的性能差距。然而，在以下2种情况下IoU-Loss不能提供梯度优化网络:

预测框与GT框之间没有重叠边界框(即)
预测框与GT框呈现包含关系(如，)。

此外，这2种情况对小目标是非常普遍的。具体来说，一方面几个像素P的偏差将导致P和G之间没有重叠；另一方面，小目标很容易被错误的预测导致。因此,IoU-Loss不适合小目标检测器。

CIoU和DIoU虽然可以处理以上2种情况，但由于它们都是基于IoU的，所以对小目标的位置偏差非常敏感。为解决上述问题，作者将NWD指标设计为损失函数：

其中，为预测框p的高斯分布模型，为GT Box G的高斯分布模型。根据介绍，即使在的情况下，基于NWD的损失也可以提供梯度。

NWD-Based Model | 小目标检测新范式，抛弃IoU-Based暴力涨点(登顶SOTA)（一）

1问题刨析