VanillaKD | 简单而强大, 对原始知识蒸馏方法的再审视

简介: VanillaKD | 简单而强大, 对原始知识蒸馏方法的再审视

近年来,知识蒸馏(KD)的种种改进策略不断问世,包括如何利用中间层特征和样本间的流型结构等。然而,目前大多数文章对知识蒸馏的测试仍停留在“较小数据集”和“较小模型”的水平。通常的测试方法是在CIFAR-100数据集上进行240个epoch的训练,或在ImageNet数据集上进行90个epoch的训练。这些测试存在着数据集规模过小或训练策略过弱的缺陷,无法准确评估知识蒸馏方法在复杂的实际应用场景中的性能

华为诺亚的研究者们重新审视了近年来代表性的知识蒸馏方法,并从数据集大小、训练策略和模型参数量三个维度评估了它们对性能的影响。研究发现:

  • 在大型数据集上,通过使用强训练策略进行充分训练后,原始知识蒸馏方法(vanilla KD)与现有最先进方法的性能相当。
  • 在小型数据集上,无论训练策略的强弱,原始知识蒸馏方法始终显著弱于精心设计过的方法。
  • 学生模型的参数量对评估结果没有显著影响。

基于这些观察,本研究仅使用vanilla KD方法,在ImageNet数据集上刷新了多个模型的精度记录,并发布了它们的模型参数:

  • ResNet50:83.08%
  • ViT-T:78.11%
  • ViT-S:84.33%
  • ConvNeXt v2-T:85.03%

知识蒸馏中的“小数据陷阱”

论文作者选取DKD[1]和DIST[2]作为基准知识蒸馏方法,比较了数据集大小、训练策略和模型参数量对知识蒸馏方法评估结果的影响

在ImageNet数据集上,使用更强的训练策略后,vanilla KD与SOTA方法之间的性能差距接近消失.

在CIFAR-100数据集上,即使增强训练策略也无法弥合vanilla KD与SOTA方法之间的性能差距.

基于以上观察,论文作者提出了小数据陷阱(small data pitfall)的概念,即仅依靠小规模数据集评估知识蒸馏方法会导致对性能的错误估计。考虑到现实应用场景中需要处理的数据规模通常远大于CIFAR-100数据集,这种错误估计可能会导致选择错误的方法,从而影响压缩后的模型性能。

探究vanilla KD的潜力

为进一步发掘vanilla KD的性能极限,作者在更多模型和KD方法上进行实验。

  • 更大的学生模型

上表展示了使用ResNet50作为学生模型,ResNet152和BEiTv2-L作为教师模型时的结果。即使在更大的模型上,vanilla KD方法仍旧展现出与当前领先方法相当的性能。然而,基于Hint的中间层特征蒸馏方法的表现却不合人意。尽管该方法在计算资源方面消耗更多,但其表现明显弱于仅使用Logits的蒸馏方法。此外对比ResNet50和ResNet18作为学生模型得到的结论相似,表明了学生模型的参数量对评估结果没有显著影响

  • 更多的模型种类

上表展示了更多教师模型与学生模型组合的结果。vanilla KD的表现优于DKD和DIST,说明前述结论并不局限于单一模型结构

  • 更长的训练轮数

为了进一步探究vanilla KD的性能极限,论文作者使用ResNet50作为学生模型,BEiTv2-B作为教师模型,进一步增大了训练轮数设置。经过更加充分的训练后,作者们得到了ResNet50,ViT-T,ViT-S,和ConvNeXt v2-T模型在ImageNet上的新SOTA。

  • 与MIM相比

Mask image modeling(MIM)作为近期火热的预训练方法,能够使微调后模型达到更高精度。论文作者使用ConvNeXt v2-T作为学生模型,BEiTv2-B作为教师模型,将vanilla KD与MIM进行了比较。上表中的结果表明在同样的计算资源消耗下,vanilla KD能够取得显著优于MIM的结果

  • 迁移到下游任务

作者在COCO 2017 val上评估了使用vanilla KD蒸馏的backbone对性能的影响。如上表所示,学生模型在分类任务上得到的性能提升能够有效迁移到下游任务

结论

本文从数据集大小、训练策略和模型参数量三个维度重新审视了知识蒸馏方法的评估过程,发现原始的知识蒸馏方法受到源自小规模数据和不充分训练策略的低估。在采用更强的数据增强和更大的数据集后,仅使用原始知识蒸馏方法训练的ResNet50,ViT-T,ViT-S,和ConvNeXt v2-T模型取得了新的SOTA性能,说明了原始的知识蒸馏方法尽管设计简单,却有实际应用的巨大潜力

参考文献

  • [1] Borui Zhao, Quan Cui, Renjie Song, Yiyu Qiu, and Jiajun Liang. Decoupled knowledge distillation. In IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022
  • [2] Tao Huang, Shan You, Fei Wang, Chen Qian, and Chang Xu. Knowledge distillation from a stronger teacher. In Advances in Neural Information Processing Systems, 2022.
相关文章
|
3天前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
19 3
|
6天前
|
机器学习/深度学习 自然语言处理 并行计算
【大模型】解释自我注意力的概念及其在LLM表现中的作用
【5月更文挑战第6天】【大模型】解释自我注意力的概念及其在LLM表现中的作用
|
6天前
|
数据采集
【大模型】大语言模型训练数据中的偏差概念及其可能的影响?
【5月更文挑战第5天】【大模型】大语言模型训练数据中的偏差概念及其可能的影响?
|
10月前
|
机器学习/深度学习
本文介绍了隐马尔科夫模型向强化学习转化的逻辑
本文介绍了隐马尔科夫模型向强化学习转化的逻辑
54 0
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【网安AIGC专题11.1】11 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
【网安AIGC专题11.1】11 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
107 0
|
机器学习/深度学习 人工智能 算法
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
746 0
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
|
10月前
|
机器学习/深度学习 自动驾驶
使用迭代方法为语义分割网络生成对抗性
使用迭代方法为语义分割网络生成对抗性。
82 0
|
11月前
|
机器学习/深度学习 算法 计算机视觉
用于语义图像分割的弱监督和半监督学习:弱监督期望最大化方法
这篇论文只有图像级标签或边界框标签作为弱/半监督学习的输入。使用期望最大化(EM)方法,用于弱/半监督下的语义分割模型训练。
135 0
|
12月前
|
机器学习/深度学习 人工智能 算法
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头(一)
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头(一)
311 0
|
12月前
|
Go 网络架构 计算机视觉
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头(二)
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头(二)
748 0