【论文原文】:Focal and Global Knowledge Distillation for Detectors
获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9879869
博主关键词: 目标检测,知识蒸馏,局部,全局
推荐相关论文:
-无
摘要:
知识蒸馏已成功应用于图像分类。然而,目标检测要复杂得多,大多数知识蒸馏方法都失败了。在本文中,我们指出,在目标检测中,教师和学生的特征在不同领域差异很大,尤其是在前景和背景方面。如果我们将它们平均蒸馏,特征图之间的不均匀差异将对蒸馏产生负面影响。因此,我们提出了局部和全局蒸馏(FGD)。局部蒸馏将前景和背景分开,迫使学生专注于教师的关键像素和通道。全局蒸馏重建不同像素之间的关系,并将其从教师转移到学生,补偿局部蒸馏中缺失的全局信息。由于我们的方法只需要计算特征图上的损耗,FGD可以应用于各种探测器。我们在具有不同骨干的各种探测器上进行实验,结果表明学生检测器实现了出色的mAP改进。例如,基于ResNet-50的RetinaNet,Faster RCNN,RepPoints和Mask RCNN采用我们的蒸馏方法在COCO40上实现了7.42%,0.42%,0.42%和1.2017%的mAP,分别比基线高3.3,3.6,3.4和2.9。我们的代码可在 https://github.com/yzd-v/FGD 获得。
关键词 :目标检测,知识蒸馏,局部,全局。
简介:
最近,深度学习在各个领域取得了巨大的成功[8],[9],[22],[24]。为了获得更好的性能,我们通常使用更大的主干,这需要更多的计算资源和更慢的推理。为了克服这个问题,已经提出了知识蒸馏[11]。知识蒸馏是一种将信息从大型教师网络继承到紧凑的学生网络并在推理期间无需额外成本即可实现强大性能的方法。然而,大多数蒸馏方法[10],[27],[33],[34]是为图像分类而设计的,这导致了物体检测的微不足道的改进。
Fig. 1. Visualization of the spatial and channel attention map from the teacher detector (RetinaNet-ResNeXt101) and the student detector (RetinaNet-ResNet50).
Table. 1. Comparisons of different distillation areas. fg: foreground. bg: background. split: split the foreground and background and distill them with different weights.
众所周知,极端的前景-背景类不平衡是目标检测的关键点[17]。不平衡的比例也会损害物体检测的蒸馏。对于这个问题,有一些努力。陈等.[3] 分配权重以抑制背景。Mimick [15] 提炼了学生的区域提案网络提出的积极区域。FGFI [28] 和 TADF [25] 分别使用细粒度和高斯掩膜来选择蒸馏区域。Defeat[7] 分别提炼前景和背景。然而,蒸馏的关键区域在哪里尚不清楚。
为了探索学生和教师特征之间的差异,我们对空间和通道注意力进行了可视化。如图 1 所示,学生的注意力和教师的注意力在前景中的注意力差异相当显著,而在背景中的差异相对较小。这可能会导致学习前景和背景的不同困难。在本文中,我们进一步探讨了知识蒸馏中的前景和背景对目标检测的影响。我们通过分离蒸馏中的前景和背景来设计实验。令人惊讶的是,如表 1 所示,前景和背景一起蒸馏的性能最差,甚至比仅使用前景或背景还要糟糕。这种现象表明,特征图中的不均匀差异会对蒸馏产生负面影响。此外,如图 1 所示,每个通道之间的注意力也有很大不同。再深入思考,不仅前景和背景之间存在负面影响,而且像素和通道之间也存在负面影响。因此,我们建议进行局部蒸馏。在分离前景和背景的同时,局部蒸馏还计算了教师特征中不同像素和通道的注意力,让学生专注于教师的关键像素和通道。
然而,仅仅关注关键信息是不够的。众所周知,全局环境在检测中也起着重要作用。许多关系模块已成功应用于检测,如非局部[29]、GcBlock [2]、关系网络[12],大大提高了探测器的性能。为了弥补局部蒸馏中缺失的全局信息,我们进一步提出了全局蒸馏。在全局蒸馏中,我们利用GcBlock提取不同像素之间的关系,然后从教师到学生进行提取。
正如我们上面分析的,我们提出了局部和全局蒸馏(FGD),结合局部蒸馏和全局蒸馏,如图2所示。所有损失函数仅根据特征计算,因此FGD可以直接用于各种探测器,包括两级模型,基于锚的单级模型和无锚的单级模型。没有花里胡哨的东西,我们使用FGD在物体检测方面实现了最先进的性能。简而言之,本文的贡献是:
- 我们提出,教师和学生关注的像素和通道是完全不同的。如果我们在不区分像素和通道的情况下提炼它们,这将导致微不足道的改进。
- 我们提出局部和全局蒸馏,使学生不仅可以关注教师的关键像素和通道,还可以学习像素之间的关系。
- 我们通过对COCO [18]的广泛实验来验证我们的方法在各种探测器上的有效性,包括单级,两级,无锚方法,实现了最先进的性能。