在目标检测中,框回归(BBR)是决定目标定位性能的关键步骤。然而,作者发现大多数以前的BBR损失函数有两个主要缺点:
- 基于范数和IOU的损失函数都不能有效地描述BBR的目标,这导致收敛速度慢和回归结果不准确。
- 大多数损失函数忽略了BBR中的不平衡问题,即与目标框具有小重叠的大量目标框对BBR的优化贡献最大。
为了减轻由此造成的不利影响,在本文中进行了深入研究,以挖掘BBR损失的潜力。首先,提出了一种有效的Efficient Intersection over Union(EIOU)损失,它明确地测量了BBR中3个几何因子的差异,即重叠面积、中心点和边长。之后,陈述了Effective Example Mining(EEM)问题,并提出了Focal loss的回归版本,以使回归过程专注于高质量的Anchor boxes。最后,将上述两部分结合起来,得到一个新的损失函数,即Focal EIOU Loss。在合成和真实数据集上进行了大量实验。与其他BBR损失相比,可以在收敛速度和定位精度上实现显著的优势。
1、简介
目标检测包括两个子任务:目标分类和目标定位,一直是计算机视觉中最基本的问题之一。当前最先进的目标检测器(例如,Cascade R-CNN、Mask R-CNN、Dynamic R-CNN和DETR)依赖于边界回归(BBR)模块来定位目标。基于这一范式,精心设计的损失函数对于BBR的成功至关重要。
迄今为止,BBR的大部分损失函数可以分为两类:
- -范数损失可以统一为等式:
其中x是预测框和目标框之间的差。传统的Smooth L1损失可以形成为和。 -范数损失被批评为不仅忽略了BBR变量(x,y,w,h)中的相关性,还忽略了对大边界框的固有偏差(由于非规范化形式)。然而,如图1所示以前基于IOU的损失,例如CIOU和GIOU,无法有效地测量目标框和Anchor之间的差异,这导致BBR模型优化中的收敛速度慢和定位不准确。
- 基于 IOU 的损失可以统一为等式:
其中和是预测框和目标框。附加惩罚旨在补充原始IOU的收益。这些损失共同回归所有BBR变量作为一个整体。它们也是标准化的,对边界框的比例不敏感。然而,大多数算法都存在收敛速度慢和定位不准确的问题。更重要的是,现有的基于 IOU 的损失忽略了信息Anchor的重要性。
在本文中进行了深入的研究,以挖掘当前BBR损失的潜力,实现精确的目标检测。首先,提出了一种有效的IOU损失(EIOU)来提高收敛速度和定位精度,该方法使用额外的惩罚项来明确测量BBR中3个关键几何因素的差异,包括重叠区域、中心点和边长。其次,阐述了BBR中的有效实例挖掘(EEM)问题。受最初用于测量分类误差的 Focal loss 的启发,作者设计了 Focal loss 的回归版本,以增强具有大IOU的高质量Anchor在BBR模型优化过程中的贡献。
最后,将所提出的两种方法组合为一种新的BBR损失函数,即Focal EIOU,以实现高效和准确的目标检测。通过对合成和真实数据集的广泛评估,验证了所提出损失函数的有效性和优势。此外,当将Focal EIOU损失与几种最先进的目标检测模型(包括Faster R-CNN、Mask R-CNN,RetinaNet、ATSS、PAA和DETR)相结合时,可以在大规模COCO 2017数据集上实现检测精度的一致和显著提高,这说明了提出的损失功能的潜在潜力。
本文的贡献总结如下:
- 考虑到基于IOU的损失和-范数损失的缺陷,提出了一种有效的IOU损失,以解决现有损失的困境,并获得更快的收敛速度和更好的回归结果。
- 考虑到BBR中高质量Anchor和低质量Anchor之间的不平衡,设计了一个 Focal loss 的回归版本,以增强最有希望的Anchor在模型优化中的贡献,同时抑制不相关的Anchor。
- 对合成数据和真实数据进行了大量实验。出色的实验结果验证了所提出方法的优越性。详细的消融研究显示了损失函数和参数值的不同设置的影响。
2、IOU Loss的局限性分析
2.1、IOU Loss的局限
测量两个任意形状(体积)之间相似性的IOU损失为:
它具有非负性、对称性、三角形不等式和尺度不敏感性等良好的性质。它已被证明是一个度量标准。然而,它有两个主要的缺点:
- 如果两个box没有任何交集,IOU Loss将始终为零,这不能正确反映这两个box之间的紧密程度。
- IOU Loss的收敛速度较慢。
2.2、GIOU Loss的局限
为了解决IOU Loss的缺点,提出了GIOU损失,定义如下:
其中是两个任意的box。C是包含A和B的最小凸盒和。GIOU Loss在时有效,但它仍然有两个缺点:
- 当时,GIOU损失打算增加边界框的面积,使其与目标框重叠(见图1),这与减少空间位置差异的直觉相反。
- 当时,|C−A∪B|的面积总是一个小数或等于零(当A包含B时,该项将为零,反之亦然)。在这种情况下,GIOU损失退化为 IOU 损失。因此,GIOU损失的收敛率仍然很慢。
2.3、CIOU Loss的局限
CIOU损失考虑了三个重要的几何因素,即重叠面积、中心点距离和长宽比。给定一个预测框 B 和一个目标框,CIOU损失的定义如下:
其中和分别表示和的中心点。表示欧几里得距离。是覆盖两个box的最小封闭box的对角线长度。和测量宽高比的差异。
v关于w和h的梯度计算如下:
在之前的工作中,实验结果表明,与以前的损失函数相比,CIOU损失的收敛速度和检测精度都有显著提高。然而,最后一项的v仍然没有得到很好的定义,这从3个方面减缓了CIOU的收敛速度:
- 在等式(5)中, 仅反映纵横比的差异,而不是 与 或 与 之间的实际关系。即,所有具有属性具有=,这与现实不符。
- 在等式(6)中,有。和有相反的符号。因此,在任何时候,如果这两个变量(w或h)中的一个增加,另一个将减少。这是不合理的,尤其是当和或和时。
- 由于v仅反映纵横比的差异,因此CIOU损失可能以不合理的方式优化相似性。如图1所示,目标框的尺度设置为和。Anchor的初始尺度设置为w=1和h=2.4。Anchor尺度在50次迭代后回归为w=1.64和h=2.84。这里,CIOU损失确实增加了纵横比的相似性,但它阻碍了模型有效地减少和之间的真实差异。
2.4、本文提出的方法
为了解决上述问题,对CIOU损失进行了修正,并提出了一个更有效的IOU损失版本,即EIOU损失,其定义如下。
其中和是覆盖两个box的最小封闭盒子的宽度和高度。即,将损失函数分为三部分:IOU损失、距离损失和方位损失。这样就可以保留 CIOU Loss的有益特性。同时,EIOU Loss直接使目标框和Anchor的宽度和高度的差异最小化,从而产生更快的收敛速度和更好的定位结果。