【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
【论文原文】:Structured Attention Knowledge Distillation for Lightweight Networks
获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9601745
博主关键词:知识蒸馏,轻量级网络,注意力
推荐相关论文:
- 无
摘要:
知识蒸馏是通过设计的损失函数将教师网络学到的有效知识转移到学生网络中,帮助学生网络以更低的计算成本获得更好的性能。但是,当学生网络和教师网络在结构和计算量上存在很大差异时,以前的知识蒸馏方法很难有效提高学生网络性能。为了改善这种情况,本文提出了轻量级网络的结构化注意力蒸馏。结构化注意力蒸馏对模型中的特征进行通道分组,通过细化空间注意力图,帮助学生网络学习教师网络的特征提取能力。我们提出的方法是在CIFAR100和大规模人脸识别验证集(LFW,CFP-FP,Age-DB)上进行评估的。与其他蒸馏方法相比,我们提出的方法在CIFAR100和人脸识别验证集上获得了更好的精度。
简介:
近年来,深度学习已广泛应用于计算机视觉的各个方面,性能显著。AlexNet的出现因其ImageNet竞赛中的出色表现而引起了研究人员的注意。随后,研究人员发现卷积神经网络的层越深,参数越多,网络的性能就越好。但是,当卷积网络中有更多的层时,由于梯度消失,网络将难以收敛。为了解决这个问题,提出了ResNet和BN,以使卷积网络能够容纳更多的参数和层。尽管大型深度卷积神经网络在各种视觉任务中取得了惊人的效果,但由于参数庞大,计算成本巨大,很难将其部署在嵌入式终端或移动设备上。知识蒸馏是模型压缩的一种突出方法。知识蒸馏通过设计的损失函数将教师网络学习的有效知识转移到学生网络中,这有助于学生模型以更低的计算成本获得更好的性能。为了提高小型网络的性能,一些知识蒸馏方法陆续被提出。Geoffrey Hinton等人引入了知识蒸馏的概念,并提出使用教师网络的输出作为软标签来指导学生网络。FitNet提出了一种特征蒸馏的方法,使学生网络模仿教师网络的隐藏特征,从而提高学生网络的性能。谢尔盖·扎戈鲁伊科(Sergey Zagoruyko) 提出了注意力转移蒸馏,它通过提取教师网络生成的空间注意力图来指导学生网络。在注意力转移蒸馏的帮助下,学生模型可以学习教师模型提取特征的能力。通道蒸馏计算中间层特征的通道注意力,以帮助学生学习教师模型识别通道表示的能力。ShrinkTeaNet提出了一种新的角蒸馏损失,用于从教师模型的超球体到学生的特质方向和样本分布。但是,考虑到轻量级网络与教师模型的巨大差异,参数数量和计算成本并不在同一数量级,提取特征的维度和信息也存在较大差异。因此,学生很难直接学习和模仿教师模型的输出或特征来达到理想的效果。以MobileNetV2为学生,ResNet50 为教师模型,在CIFAR100上进行了对比实验。为了验证学生网络和教师网络存在巨大结构差异时不同知识蒸馏方法的效果,我们调整了 MobileNetV2 的结构,将输出通道数改为[16]、[24]、[32]、[64],ResNet50 对应的输出通道数为[256]、[512]、[1024], [2048]. 在表1中,很容易发现 KD 和 CD 降低了学生模型的准确性,而 AT 和 SH 稍微提高了精度。很明显,模型之间的结构差异确实会影响知识蒸馏的有效性。此外,在 CD 和 SH 中,为了匹配教师网络的输出大小,学生需要添加图层和参数,这对轻量级网络相当不友好。
针对上述问题,我们提出了一种新的知识蒸馏方法,以提高学生提取特征的能力。我们通过结构化注意力蒸馏(SA)的方法将知识传授给学生,这是一种特殊的注意力蒸馏,我们将在第2.1节中详细解释。实验结果表明,所提方法在图像分类和人脸识别方面优于其他对比方法。
Fig. 1. Structured attention maps for various networks from pre-softmax activation.
Fig. 1.来自pre-softmax激活的各种网络的结构化注意图。
Table 1 Accuracy of the student network MobileNetV2 under different distillation methods on CIFAR100
Table 1CIFAR100上d不同蒸馏方法下学生网络MobileNetV2的准确性
Fig. 2. Structured attention mapping over feature dimension.