【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
【论文原文】:Multi-Stage Model Compression using Teacher Assistant and Distillation with Hint-Based Training
获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9767229
博主关键词:蒸馏,基于提示的训练,模型压缩,图像分类
推荐相关论文:
- 无
摘要:
大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。
简介:
近年来,深度学习在人工智能领域取得了显著成果。特别是,具有大量卷积层的卷积神经网络(CNN)成功地获得了高性能。此外,随着深度学习方法的发展和GPU等硬件性能的提高,大规模训练神经网络变得更加容易。众所周知,这些神经网络在图像分类和图像识别等问题上表现良好,并且已经开发了VGGnet和ResNet等神经网络模型。但是,它们不适合在智能手机等小型设备中使用,因为此类设备的计算资源有限,这使得难以使用大型CNN。因此,需要实现可以轻松部署在小型设备中并且仍然具有高性能的CNN。
解决这个问题的方法之一是蒸馏,其中使用大型CNN作为教师模型来压缩模型。在蒸馏中,大型CNN用作教师模型,并将知识转移以训练较小的模型,该模型用作学生模型。蒸馏可用于获得具有高性能的小型CNN。但是,如果教师和学生之间的参数数量差异很大,蒸馏可能无法正常工作。作为这个问题的解决方案,有一种称为教师助理知识蒸馏(TAKD)的方法,它使用教师助理(TA)模型,该模型介于教师和学生模型之间。然而,这种方法只关注蒸馏,它考虑了输出层的损失,因此还有改进的余地。其中一种方法是基于提示的训练,它模仿隐藏层的响应,以更准确地转移教师模型的输入输出关系。本文的目的是在教师和学生模型之间的参数数量存在较大差异时,通过应用模型压缩来进一步提高学生模型的性能,同时加深层数。
在本文中,我们提出了一种两步蒸馏,通过使用 TA 模型进行基于提示的训练来模拟隐藏层和输出层。第一步,我们使用 TA 模型作为学生模型,并使用基于提示的训练和蒸馏来训练 TA 模型以优化其参数。第二步,我们使用 TA 模型作为老师。在这里,目标学生模型通过基于提示的训练和蒸馏进行训练。通过这种方式,将基于提示的训练方法与 TAKD 相结合,在加深层的同时压缩模型以实现更剧烈的模型压缩,这是我们提出的方法的新颖之处。
在实验中,我们使用CIFAR-10数据集来比较所提出的方法和现有方法的性能。
Fig. 1. The proposed method for compression into a small and deep neural network model.
Fig. 1.所提出的压缩成小型深度神经网络模型的方法。