检测微小目标是阻碍目标检测发展的主要障碍之一。通用目标检测器的性能往往会在微小目标检测任务上急剧下降。在本文中指出,
Anchor-Base
的检测器中的框先验或Anchor-Free
检测器中的点先验对于微小目标都是次优的。作者主要观察结果是,当前Anchor-Base
或Anchor-Free
的标签分配范式将产生许多异常的微小GT
样本,导致检测器对微小目标的关注较少。为此,作者提出了一种基于高斯感受野的标签分配(
RFLA
)策略来检测微小目标。具体来说,RFLA
首先利用了特征感受野服从高斯分布的先验信息。然后,提出了一种新的感受野距离(RFD
)来直接测量高斯感受野和GT
之间的相似性,而不是使用IoU
或中心采样策略分配样本。考虑到基于
IoU
阈值和中心采样策略偏向于大目标,作者进一步设计了基于RFD
的分层标签分配 (HLA
) 模块,以实现对小目标的平衡学习。在4个数据集上进行的大量实验证明了所提出方法的有效性。特别是,
RFLA
在AI-TOD
数据集上以 4.0 AP 点的成绩优于最先进的竞争对手。
1、简介
微小的目标,其像素数量极其有限(小于 AI-TOD
中定义的 16×16 像素),始终是计算机视觉中难以破解的难题。微小目标检测(TOD
)是最具挑战性的任务之一,由于微小目标缺乏区分特征,通用目标检测器通常无法在 TOD 任务上提供令人满意的结果。考虑到微小目标的特殊性,提出了几个定制的TOD
基准(例如AI-TOD
、TinyPerson
和AI-TOD-v2
),以促进包括驾驶辅助、交通管理和海上救援在内的一系列下游任务。
通用目标检测器可以分为两派:Anchor-Base
的范式和 Anchor-Free
的范式。对于 Anchor-Base
的检测器,离散位置、尺度和纵横比的先验框是启发式预设的。然后,主要基于 IoU
构建标签分配策略(例如 Max IoU Strategy
、ATSS
),以找到 Anchor
点和 ground truth
(gt) 之间的适当匹配关系。Anchor-Free
检测器将先验从框更改为点。通常将 gt 覆盖的先验点视为正样本(在 FCOS
中具有中心性),节省了Anchor
微调的工作量。
尽管上述两个派系在通用目标检测任务上表现出色,但在 TOD
任务上的表现通常会大幅下降。在本文中,作者认为当前的先验框和点以及它们相应的测量策略对于微小目标来说是次优的,这将进一步阻碍标签分配的过程。具体来说,以个体先验框和点为实例,从分布的角度重新思考它们。
其中是先验信息的概率密度函数,是图像上的位置,是对应位置的权重,是阶跃函数,等于当输入大于 0 时为 1,否则为 0。 是先验信息区域,对于Anchor-Base
的检测器 = 宽度, = 高度,而对于Anchor-free
检测器,。不同先验的示意图如图1第2行所示,现有先验信息与其对应的测量策略对于微小目标存在以下问题。
首先,单个框先验和点先验都具有有限的先验域(其中 ),而现有的标签分配度量高度依赖于域的重叠。换句话说,当一个特定的gt
与特定的先验没有重叠时,它们的位置关系不能通过IoU
或centerness
来解决。对于微小目标,通常情况下,gt
框与几乎所有Anchor
框都没有重叠(即IoU = 0)或不包含任何Anchor
点,导致微小目标缺乏正样本。为此,通常会部署启发式算法来保证微小目标的更多正样本。但是,分配器通常无法根据零值 IoU
或centerness
来补偿微小目标的正样本。因此,网络将较少关注微小目标的学习。
其次,当前的先验区域主要遵循均匀分布,并平等地对待先验区域内的每个位置(v = 常数)。然而,先验信息本质上是用来辅助标签分配或特征点分配过程的。在这个过程中,一个隐含的规则是将具有适当感受野的特征点分配给 gt
。正如先前工作中的理论分析,当将特征点的感受野重新映射回输入图像时,有效感受野实际上是高斯分布的。均匀分布的先验和高斯分布的感受野之间的差距会导致 gt
和分配给它的特征点的感受野不匹配。
为了缓解上述问题,本文引入了一种基于高斯分布的新先验,并构建了一种更有利于微小目标的基于高斯感受野的标签分配 (RFLA
) 策略。具体来说,建议使用新设计的感受野距离 (RFD
) 直接测量高斯感受野和 gt
区域之间的相似性。利用高斯感受野作为先验信息可以优雅地解决框先验和点先验所带来的问题。一方面,高斯分布没有阶跃变化。每个个体先验的域是整幅图像,其中每个位置的权重从中心向外围逐渐衰减,值大于0。因此可以对任意特征点与任意gt
之间的位置关系进行建模。整个图像,可以为不同大小的目标获得平衡的正样本。另一方面,高斯先验可以更好地拟合高斯有效感受野的性质,从而缓解感受野不匹配问题,特别是对于微小目标。
此外,由于 IoU
和 RFD
不在同一个维度,直接将新的度量应用于现有的基于阈值的标签分配结构是不合理的。相反,本文引入了 RFD
分数来对每个特征点的优先级进行排名。在此基础上,进一步设计了一个分层标签分配器(HLA
),它逐渐减轻异常值 gt
样本并获得对微小目标的足够训练。
本文的贡献总结如下:
(1) 通过实验揭示了当前的Anchor-Base
和 Anchor-Free
检测器在微小目标标签分配中存在尺度样本不平衡问题;
(2) 为了缓解上述问题,引入了一种简单但有效的基于感受野的标签分配 (RFLA
) 策略。RFLA
很容易取代主流检测器中的标准框和基于点的标签分配策略,从而提高其在 TOD
上的性能;
(3) 在4个数据集上的大量实验验证了提出方法的性能优越性。引入的方法在具有挑战性的 AI-TOD
数据集上显著优于最先进的竞争对手,而在推理阶段没有额外成本。
2、本文方法
2.1、感受野建模
主流目标检测器遵循的一个基本原则是分而治之,即在 FPN 的不同层上检测不同尺度的目标。具体来说,Anchor-Base
的检测器将不同尺度的先验框平铺在FPN
的不同层上以辅助标签分配,从而在FPN
的不同层上检测到不同尺度的目标。对于Anchor-Free
检测器,它们将不同尺度范围内的目标分组到不同级别的 FPN
上进行检测。尽管标签分配策略各不相同,但Anchor-Base
和Anchor-Free
检测器的一个共同点是将适当感受野的特征点分配给不同尺度的目标。因此,感受野可以直接作为标签分配的有根据和有说服力的先验,而无需设计启发式Anchor
框预设或尺度分组。
在本文中建议直接测量有效感受野 (ERF
) 与 gt
区域之间的匹配度以进行标签分配,从而摆脱使 TOD
恶化的框或点先验。以前的工作已经指出,ERF
理论上可以推导出为高斯分布。在这项工作中遵循这一范式,寻求将每个特征点的 ERF
建模为高斯分布,首先通过以下公式推导出标准卷积神经网络上第 n 层的理论感受野(TRF)为:
其中表示第 n 个卷积层上每个点的 TRF
, 和 表示第 n 层卷积操作的 kernel size
和Stride
。
ERF
和 TRF
具有相同的中心点,但每个特征点的 ERF
仅占整个 TRF
的一部分。因此,使用每个特征点 的位置作为标准二维高斯分布的均值向量。由于难以获得精确的 ERF
,作者将 ERF
半径 近似为 TRF
半径的一半。 的平方用作标准方形卷积核的二维高斯分布的协方差。总而言之,将 ERF
的范围建模为二维高斯分布
2.2、感受野距离
得到高斯ERF
,接下来的关键步骤是测量特征点的ERF
与某个gt
的匹配度。正如介绍中所讨论的,阶跃均匀分布不利于微小目标,还需要将 gt
建模为另一种分布。
观察到物体的主体聚集在边界框的中心,作者还将 gt
框 建模为标准的二维高斯分布 ,其中中心点 每个GT
框的大小作为高斯的均值向量,半边长的平方作为协方差矩阵,即
在本文中研究了高斯分布之间的三种经典距离作为感受野距离候选(RFDC
)。这些距离测量包括 Wasserstein Distance
、K-L 散度
和 J-S 散度
。高斯分布
之间的J-S散度
没有封闭解,在逼近其解时会引入大量计算,因此不使用J-S散度
。在这里,首先分析它们在任务中的封闭形式解决方案,然后讨论它们在 TOD
任务中的优缺点。
1、Wasserstein distance
Wasserstein Distance
来自最优传输理论。给定高斯 ERF
和高斯 gt ,第二个 Wasserstein 距离
可以简化为:
Wasserstein Distance
的主要优点是它可以测量2个不重叠的分布。通常情况下,gt
框与大多数先前的框和点没有重叠,并且分配者未能将这些候选者的优先级排序到某个gt
。因此,很容易说 Wasserstein 距离
的特性有利于 TOD
,它可以一致地反映所有特征点与某个 gt box
之间的匹配程度,使得分配器可以优先为微小目标补偿更多的正样本。然而,Wasserstein 距离
不是尺度不变的,当数据集包含大规模方差的目标时,它可能不是最优的。
2、Kullback-Leibler divergence
Kullback-Leibler Divergence
(KLD
) 是一种经典的统计距离,用于衡量一个概率分布与另一个的不同之处。两个高斯分布之间的 KLD
也有一个封闭形式的解,ERF
和 gt
区域 之间的 KLD
如下:
KLD
具有两个二维高斯分布之间的尺度不变性,尺度不变性对于检测至关重要。而KLD
的主要缺点是当两个分布的重叠可以忽略不计时,它不能一致地反映两个分布之间的距离。因此,本文选择ERF
和gt
之间的KLD
作为另一个RFDC
。
综上所述研究了三种经典的概率分布测量方法,而选择 Wasserstein 距离
和 KLD
作为 RFDC
。然后,对 RFDC
进行非线性变换,得到归一化值范围在 (0, 1) 之间的 RFD
,具体如下所示:
2.3、分层标签分配
一些Anchor-based
检测器基于IoU
设置阈值来决定pos/neg样本,而Anchor-free
检测器主要通过point prior
和gt region
之间的空间位置划分pos/neg样本。由于微小目标在基于阈值和基于 gt
区域的策略中通常不受欢迎,作者建议通过分数排名为微小目标分层分配标签。
为了保证任意特征点和任意gt
之间的位置关系可以得到解决,作者在RFD
的接触时提出了分层标签分配(HLA
)策略。在分配之前,基于上述方法计算特征点和gt
之间的RFD
得分矩阵。
在第一阶段,用一定的 gt
将每个特征点排列到它的 RFD
分数。然后,将正标签分配给具有特定 gt
的 top-k
个 RFD
分数的特征点。最后,得到分配结果 和对应的已分配特征的 mask m
,其中 m 是二进制值(0/1)。
在第二阶段,为了提高整体召回率并减少异常值,通过乘以阶段因子来轻微衰减有效半径,然后重复上述排序策略并为每个gt
补充一个正样本,得到分配结果。通过以下规则得到最终的赋值结果r:
其中采用mask
操作 m 是为了避免为那些已经分配了足够样本的 gt
引入过多的低质量样本。并不是说被遮挡的样本会被分配给较小的 gt
。将 RFD
与 HLA
策略相结合,可以得到完整的 TOD
基于感受野的标签分配 (RFLA
) 策略。
2.4、应用于检测器
提出的 RFLA
策略可以很容易地应用于 Anchor-based
和 Anchor-free
的框架。不失一般性,以经典的 Faster R-CNN
和 FCOS
为例。具体来说,对于 Faster R-CNN
,RFLA
可用于替代标准 Anchor
平铺和 MaxIoU Anchor
分配过程。对于 FCOS
,移除了限制 gt
框内特征点的约束,因为小框只覆盖一个极其有限的区域,该区域通常拥有比大目标少得多的特征点。然后,很容易用 RFLA
代替基于点的分配以进行平衡学习。
请注意,将中心损失修改为以下公式,以避免梯度爆炸:
3、实验
4、参考
[1].RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection
5、推荐阅读
Yolov5-6.2 正式发布 | Yolov5 也可以训练分类模型啦,语义分割+实例分割很快到来