4、实验
4.1、消融实验
1、通道蒸馏的有效性
归一化通道的概率图和不对称 KL 差异在蒸馏方法中起重要作用。这里使用4种不同变体进行实验,以显示表4中提出的方法的有效性。所有蒸馏方法都应用于与输入相同的作用图。
- “PI”代表像素级知识蒸馏,该蒸馏使每个空间位置的激活归一化。
- “L2 W/O NORM”表示直接最大程度地减少了来自两个网络的特征图之间的差异,这两个网络都考虑了所有通道中所有位置的差异。
- “Bhat”是Bhattacharyya距离,这是对称分布测量。它与每个通道中的差异对齐。
从表4中可以看到测量归一化通道差异的不对称 KL 差异可实现最佳性能。请注意,由于 KL 差异是不对称的,因此无法互换学生和老师的意见。通过更改 KL 差异中输入的顺序进行实验,并且训练不会收敛。
2、温度参数和损失权重的影响
通过在不同的损失权重α下调整温度参数t来进行实验以改变通道概率图。实验是在逻辑图上进行的。结果如图3所示。所有结果都是三次的平均值。损失权重设置为1、2、3和t∈[1、5]。如果增加T,则分布往往会Soft。
从图中可以看到,一个Softer的概率图可能有助于知识的蒸馏。此外,在一定的范围内,性能是稳定的。如果T设置为较小,性能似乎会下降。在这种情况下,该方法只关注有限的显著像素。当T = 4和α = 3在PSPNet18上获得了最好的性能。
4.2、SOTA对比
1、语义分割
2、目标检测
5、参考
[1].Channel-wise Knowledge Distillation for Dense Prediction*.
推荐阅读
All are Worth Words | 当 ViT 遇到扩展模型会出现什么样子的火花?Light-YOLOv5 | SepViT + BiFPN + SIoU成就更轻更快更优秀的 YOLOv5 改进算法