3、本文方法
3.1、概述
从定义基于特征的蒸馏损失的一般形式开始。出于这项工作的目的,将检测器分为3个部分:
- Backbone:用于提取特征
- Neck:用于融合不同尺度的特征(通常为FPN)
- Head:用于生成回归和分类分数
对于基于特征的KD,在Neck的输出处分别从教师和学生中选择中间特征和。T和S之间基于特征的蒸馏损失为:
其中H、W、C、分别为高度、宽度、通道数量和Neck输出数量,为第个输出刻度的元件总数。此外,将定义为将和的值映射到[0,1]的归一化函数,在本文的前提下是最小-最大重新缩放层,而是匹配和维度的可选自适应层,这里为1×1卷积层。
作者还引入了缩短符号,它表示在归一化特征上的单个特征位置,,,处的差异测量函数的选择,并包括自适应层,即。因此,使用和分别表示标准化和适应的学生和标准化教师激活,例如。
3.2、测量差异
正如所确定的,的实际标准选择是-范数。=惩罚较大的误差,但对较小的误差更能容忍。另一方面,不会过度惩罚较大的误差,但较小的误差会受到更严厉的惩罚。一般形式的-范数由下式给出:
显然,这样的函数不能捕捉特征之间的空间关系。为了捕获二阶信息,需要涉及至少两个特征位置,因此将问题陈述从逐点比较改为局部patch-wise比较。对于每个这样的patch,提取了3个基本属性:平均值、方差和互相关,它们捕捉了和之间的关系。
作者遵循SSIM,并使用大小为11×11和的高斯加权计算这些量。所提出的SSIM框架比较了每个属性,因此由3个分量组成:亮度、对比度和结构,其定义如下:
其中,、表示平均值,、表示方差,表示patch内的协方差。此外,为了防止不稳定性,,,,其中是特征图的动态范围,,。方程(3)的一个重要性质是,由于分母中的二次项,它更重视和的相对变化。
此外,是和之间的零归一化相关系数的直接测量,因此被公式化为它们的协方差和标准差乘积之间的比率。由于方程式(3)的范围为,将3个组成部分结合起来,可实现以下目标:
其中每个函数可以通过超参()进行调整,默认。
由于本文的方法完全基于特征,与Head或边界框标签的类型无关,因此只需使用加权因子将添加到现有检测目标函数(通常为和)中,从而实现以下总体训练目标:
4、实验
4.1、 Comparison with -norms
4.2、Influence of Luminance, Contrast and Structure
4.3、Comparison to State-of-the-Art Methods
4.4、Ablation Studies
5、参考
[1].Structural Knowledge Distillation for Object Detection.