华为 + 武汉大学提出基于高斯感受野的标签分配 RFLA,大幅度解决超小目标问题!

简介: 华为 + 武汉大学提出基于高斯感受野的标签分配 RFLA,大幅度解决超小目标问题!

c0ea74e36a200e6a897296667cb28750.png

检测微小目标是阻碍目标检测发展的主要障碍之一。通用目标检测器的性能往往会在微小目标检测任务上急剧下降。在本文中指出,Anchor-Base 的检测器中的框先验或 Anchor-Free 检测器中的点先验对于微小目标都是次优的。作者主要观察结果是,当前Anchor-BaseAnchor-Free的标签分配范式将产生许多异常的微小 GT 样本,导致检测器对微小目标的关注较少。


为此,作者提出了一种基于高斯感受野的标签分配(RFLA)策略来检测微小目标。具体来说,RFLA 首先利用了特征感受野服从高斯分布的先验信息。然后,提出了一种新的感受野距离(RFD)来直接测量高斯感受野和 GT 之间的相似性,而不是使用 IoU 或中心采样策略分配样本。


考虑到基于 IoU 阈值和中心采样策略偏向于大目标,作者进一步设计了基于 RFD 的分层标签分配 (HLA) 模块,以实现对小目标的平衡学习。


在4个数据集上进行的大量实验证明了所提出方法的有效性。特别是,RFLAAI-TOD 数据集上以 4.0 AP 点的成绩优于最先进的竞争对手。

1、简介

微小的目标,其像素数量极其有限(小于 AI-TOD 中定义的 16×16 像素),始终是计算机视觉中难以破解的难题。微小目标检测(TOD)是最具挑战性的任务之一,由于微小目标缺乏区分特征,通用目标检测器通常无法在 TOD 任务上提供令人满意的结果。考虑到微小目标的特殊性,提出了几个定制的TOD基准(例如AI-TODTinyPersonAI-TOD-v2),以促进包括驾驶辅助、交通管理和海上救援在内的一系列下游任务。


通用目标检测器可以分为两派:Anchor-Base 的范式和 Anchor-Free 的范式。对于 Anchor-Base 的检测器,离散位置、尺度和纵横比的先验框是启发式预设的。然后,主要基于 IoU 构建标签分配策略(例如 Max IoU StrategyATSS),以找到 Anchor 点和 ground truth (gt) 之间的适当匹配关系。Anchor-Free 检测器将先验从框更改为点。通常将 gt 覆盖的先验点视为正样本(在 FCOS 中具有中心性),节省了Anchor微调的工作量。


尽管上述两个派系在通用目标检测任务上表现出色,但在 TOD 任务上的表现通常会大幅下降。在本文中,作者认为当前的先验框和点以及它们相应的测量策略对于微小目标来说是次优的,这将进一步阻碍标签分配的过程。具体来说,以个体先验框和点为实例,从分布的角度重新思考它们。

30f56023537f59c9b537c33664c6c73a.png

其中1675241181176.png是先验信息的概率密度函数,1675241193716.png是图像上的位置,V是对应位置的权重,1675241207080.png是阶跃函数,等于当输入大于 0 时为 1,否则为 0。 1675241233497.png是先验信息区域,对于Anchor-Base的检测器1675241250210.png  = 宽度,1675241269050.png = 高度,而对于Anchor-free检测器1675241286426.png1675241300098.png。不同先验的示意图如图1第2行所示,现有先验信息与其对应的测量策略对于微小目标存在以下问题。

bdcee9629bf9e5d5191cbde37911d7fe.png

首先,单个框先验和点先验都具有有限的先验域(其中 1675241329338.png),而现有的标签分配度量高度依赖于域的重叠。换句话说,当一个特定的gt与特定的先验没有重叠时,它们的位置关系不能通过IoUcenterness来解决。对于微小目标,通常情况下,gt框与几乎所有Anchor框都没有重叠(即IoU = 0)或不包含任何Anchor点,导致微小目标缺乏正样本。为此,通常会部署启发式算法来保证微小目标的更多正样本。但是,分配器通常无法根据零值 IoUcenterness来补偿微小目标的正样本。因此,网络将较少关注微小目标的学习。


其次,当前的先验区域主要遵循均匀分布,并平等地对待先验区域内的每个位置(v = 常数)。然而,先验信息本质上是用来辅助标签分配或特征点分配过程的。在这个过程中,一个隐含的规则是将具有适当感受野的特征点分配给 gt。正如先前工作中的理论分析,当将特征点的感受野重新映射回输入图像时,有效感受野实际上是高斯分布的。均匀分布的先验和高斯分布的感受野之间的差距会导致 gt 和分配给它的特征点的感受野不匹配。


为了缓解上述问题,本文引入了一种基于高斯分布的新先验,并构建了一种更有利于微小目标的基于高斯感受野的标签分配 (RFLA) 策略。具体来说,建议使用新设计的感受野距离 (RFD) 直接测量高斯感受野和 gt 区域之间的相似性。利用高斯感受野作为先验信息可以优雅地解决框先验和点先验所带来的问题。一方面,高斯分布没有阶跃变化。每个个体先验的域是整幅图像,其中每个位置的权重从中心向外围逐渐衰减,值大于0。因此可以对任意特征点与任意gt之间的位置关系进行建模。整个图像,可以为不同大小的目标获得平衡的正样本。另一方面,高斯先验可以更好地拟合高斯有效感受野的性质,从而缓解感受野不匹配问题,特别是对于微小目标。


此外,由于 IoURFD 不在同一个维度,直接将新的度量应用于现有的基于阈值的标签分配结构是不合理的。相反,本文引入了 RFD 分数来对每个特征点的优先级进行排名。在此基础上,进一步设计了一个分层标签分配器(HLA),它逐渐减轻异常值 gt 样本并获得对微小目标的足够训练。

本文的贡献总结如下:

(1) 通过实验揭示了当前的Anchor-BaseAnchor-Free检测器在微小目标标签分配中存在尺度样本不平衡问题;

(2) 为了缓解上述问题,引入了一种简单但有效的基于感受野的标签分配 (RFLA) 策略。RFLA 很容易取代主流检测器中的标准框和基于点的标签分配策略,从而提高其在 TOD 上的性能;

(3) 在4个数据集上的大量实验验证了提出方法的性能优越性。引入的方法在具有挑战性的 AI-TOD 数据集上显著优于最先进的竞争对手,而在推理阶段没有额外成本。

2、本文方法

2.1、感受野建模

主流目标检测器遵循的一个基本原则是分而治之,即在 FPN 的不同层上检测不同尺度的目标。具体来说,Anchor-Base的检测器将不同尺度的先验框平铺在FPN的不同层上以辅助标签分配,从而在FPN的不同层上检测到不同尺度的目标。对于Anchor-Free检测器,它们将不同尺度范围内的目标分组到不同级别的 FPN 上进行检测。尽管标签分配策略各不相同,但Anchor-BaseAnchor-Free检测器的一个共同点是将适当感受野的特征点分配给不同尺度的目标。因此,感受野可以直接作为标签分配的有根据和有说服力的先验,而无需设计启发式Anchor框预设或尺度分组。


在本文中建议直接测量有效感受野 (ERF) 与 gt 区域之间的匹配度以进行标签分配,从而摆脱使 TOD 恶化的框或点先验。以前的工作已经指出,ERF 理论上可以推导出为高斯分布。在这项工作中遵循这一范式,寻求将每个特征点的 ERF 建模为高斯分布,首先通过以下公式推导出标准卷积神经网络上第 n 层的理论感受野(TRF)为1675241361548.png

b3e7c882ecedb7acee73910d2588dec9.png

其中1675241392037.png表示第 n 个卷积层上每个点的 TRF1675241405750.png1675241419598.png  表示第 n 层卷积操作的 kernel size和Stride

82f9c475eff9936ec05e93470a607f03.png

ERFTRF 具有相同的中心点,但每个特征点的 ERF 仅占整个 TRF 的一部分。因此,使用每个特征点1675241440775.png  的位置作为标准二维高斯分布的均值向量。由于难以获得精确的 ERF,作者将 ERF 半径 1675241465415.png 近似为 TRF 半径的一半。1675241465415.png 的平方用作标准方形卷积核的二维高斯分布的协方差。总而言之,将 ERF 的范围建模为二维高斯分布1675241531377.png

dbf83ef3f858f9f4a9562ccdec0a0664.png

2.2、感受野距离

得到高斯ERF,接下来的关键步骤是测量特征点的ERF与某个gt的匹配度。正如介绍中所讨论的,阶跃均匀分布不利于微小目标,还需要将 gt 建模为另一种分布。


观察到物体的主体聚集在边界框的中心,作者还将 gt1675241552617.png 建模为标准的二维高斯分布 1675241570667.png,其中中心点 每个GT框的大小作为高斯的均值向量,半边长的平方作为协方差矩阵,即

09e3a855c7fec94ec6e38a02e2333ece.png

在本文中研究了高斯分布之间的三种经典距离作为感受野距离候选(RFDC)。这些距离测量包括 Wasserstein DistanceK-L 散度J-S 散度高斯分布之间的J-S散度没有封闭解,在逼近其解时会引入大量计算,因此不使用J-S散度。在这里,首先分析它们在任务中的封闭形式解决方案,然后讨论它们在 TOD 任务中的优缺点。

1、Wasserstein distance

Wasserstein Distance来自最优传输理论。给定高斯 ERF  1675241596731.png和高斯 gt 1675241626781.png,第二个 Wasserstein 距离可以简化为:

e47f353dfa81cd749546ab1277c9f530.png

Wasserstein Distance 的主要优点是它可以测量2个不重叠的分布。通常情况下,gt框与大多数先前的框和点没有重叠,并且分配者未能将这些候选者的优先级排序到某个gt。因此,很容易说 Wasserstein 距离的特性有利于 TOD,它可以一致地反映所有特征点与某个 gt box 之间的匹配程度,使得分配器可以优先为微小目标补偿更多的正样本。然而,Wasserstein 距离不是尺度不变的,当数据集包含大规模方差的目标时,它可能不是最优的。

2、Kullback-Leibler divergence

Kullback-Leibler Divergence (KLD) 是一种经典的统计距离,用于衡量一个概率分布与另一个的不同之处。两个高斯分布之间的 KLD 也有一个封闭形式的解,ERF1675241662628.pnggt 区域 1675241690789.png 之间的 KLD 如下:

2a50263bb678002c1f2161d3892306db.png

KLD具有两个二维高斯分布之间的尺度不变性,尺度不变性对于检测至关重要。而KLD的主要缺点是当两个分布的重叠可以忽略不计时,它不能一致地反映两个分布之间的距离。因此,本文选择ERFgt之间的KLD作为另一个RFDC


综上所述研究了三种经典的概率分布测量方法,而选择 Wasserstein 距离KLD 作为 RFDC。然后,对 RFDC 进行非线性变换,得到归一化值范围在 (0, 1) 之间的 RFD,具体如下所示:

f7408f6901021b2db8f09328d3fb1f1a.png

2.3、分层标签分配

一些Anchor-based检测器基于IoU设置阈值来决定pos/neg样本,而Anchor-free检测器主要通过point priorgt region之间的空间位置划分pos/neg样本。由于微小目标在基于阈值和基于 gt 区域的策略中通常不受欢迎,作者建议通过分数排名为微小目标分层分配标签。

为了保证任意特征点和任意gt之间的位置关系可以得到解决,作者在RFD的接触时提出了分层标签分配(HLA)策略。在分配之前,基于上述方法计算特征点和gt之间的RFD得分矩阵。

在第一阶段,用一定的 gt 将每个特征点排列到它的 RFD 分数。然后,将正标签分配给具有特定 gttop-kRFD 分数的特征点。最后,得到分配结果  和对应的已分配特征的 mask m,其中 m 是二进制值(0/1)。

在第二阶段,为了提高整体召回率并减少异常值,通过乘以阶段因子来轻微衰减有效半径,然后重复上述排序策略并为每个gt补充一个正样本,得到分配结果。通过以下规则得到最终的赋值结果r:

bb26f5c6bbee75f02445641e8cc9d198.png

其中采用mask操作 m 是为了避免为那些已经分配了足够样本的 gt 引入过多的低质量样本。并不是说被遮挡的样本会被分配给较小的 gt。将 RFDHLA 策略相结合,可以得到完整的 TOD 基于感受野的标签分配 (RFLA) 策略。

2.4、应用于检测器

提出的 RFLA 策略可以很容易地应用于 Anchor-basedAnchor-free 的框架。不失一般性,以经典的 Faster R-CNNFCOS 为例。具体来说,对于 Faster R-CNNRFLA 可用于替代标准 Anchor 平铺和 MaxIoU Anchor 分配过程。对于 FCOS,移除了限制 gt 框内特征点的约束,因为小框只覆盖一个极其有限的区域,该区域通常拥有比大目标少得多的特征点。然后,很容易用 RFLA 代替基于点的分配以进行平衡学习。

请注意,将中心损失修改为以下公式,以避免梯度爆炸:

f4435c09c6dfb47c5a9168843d1e0a87.png

3、实验

7b4902bd06b5a4fd86d7846754367586.pngafe2bfef948a7cfd1de5f093575e8ab4.png05371b4f6969cffe4b696da71c0e35b9.png

4、参考

[1].RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection

5、推荐阅读

Yolov5-6.2 正式发布 | Yolov5 也可以训练分类模型啦,语义分割+实例分割很快到来

BeiT v2 来袭 | BeiT升级,全面超越 MAE,实现 Vision Transformer 微调自由!

小目标绝技 | 用最简单的方式完成Yolov5的小目标检测升级!

相关文章
|
8月前
|
机器学习/深度学习 存储 计算机视觉
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
181 1
|
3月前
|
编解码 人工智能 运维
南加大提出全新通用时间序列基础模型TimeDiT!基于扩散模型创新物理约束机制
 【10月更文挑战第10天】南加大提出TimeDiT模型,创新融合扩散模型与Transformer架构,针对真实世界时间序列数据的复杂性,如多分辨率、缺失值等问题,提供高效解决方案。该模型通过新颖的掩码机制和无微调编辑策略,实现多任务处理及物理知识集成,显著提升预测和异常检测的准确性和鲁棒性。
90 3
|
2月前
|
机器学习/深度学习 计算机视觉 网络架构
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
纵观近年的顶会论文和研究热点,我们不得不承认一个现实:CNN相关的研究论文正在减少,曾经的"主角"似乎正逐渐淡出研究者的视野。
120 11
为什么卷积现在不火了:CNN研究热度降温的深层原因分析
|
6月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
107 5
|
8月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
178 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
119 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
机器学习/深度学习 算法 计算机视觉
华为 + 武汉大学提出基于高斯感受野的标签分配 RFLA,大幅度解决超小目标问题!
华为 + 武汉大学提出基于高斯感受野的标签分配 RFLA,大幅度解决超小目标问题!
268 0
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
248 0
|
机器学习/深度学习 算法 搜索推荐
亚马逊团队使用受物理启发的图神经网络,解决组合优化等问题
亚马逊团队使用受物理启发的图神经网络,解决组合优化等问题
210 0
|
移动开发 计算机视觉
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
168 0