【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

  【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

【论文原文】:Multi-Stage Model Compression using Teacher Assistant and Distillation with Hint-Based Training

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9767229

image.gif

博主关键词:蒸馏,基于提示的训练,模型压缩,图像分类

推荐相关论文:

- 无

image.gif

摘要:

大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。

简介:

近年来,深度学习在人工智能领域取得了显著成果。特别是,具有大量卷积层的卷积神经网络(CNN)成功地获得了高性能。此外,随着深度学习方法的发展和GPU等硬件性能的提高,大规模训练神经网络变得更加容易。众所周知,这些神经网络在图像分类和图像识别等问题上表现良好,并且已经开发了VGGnet和ResNet等神经网络模型。但是,它们不适合在智能手机等小型设备中使用,因为此类设备的计算资源有限,这使得难以使用大型CNN。因此,需要实现可以轻松部署在小型设备中并且仍然具有高性能的CNN。

解决这个问题的方法之一是蒸馏,其中使用大型CNN作为教师模型来压缩模型。在蒸馏中,大型CNN用作教师模型,并将知识转移以训练较小的模型,该模型用作学生模型。蒸馏可用于获得具有高性能的小型CNN。但是,如果教师和学生之间的参数数量差异很大,蒸馏可能无法正常工作。作为这个问题的解决方案,有一种称为教师助理知识蒸馏(TAKD)的方法,它使用教师助理(TA)模型,该模型介于教师和学生模型之间。然而,这种方法只关注蒸馏,它考虑了输出层的损失,因此还有改进的余地。其中一种方法是基于提示的训练,它模仿隐藏层的响应,以更准确地转移教师模型的输入输出关系。本文的目的是在教师和学生模型之间的参数数量存在较大差异时,通过应用模型压缩来进一步提高学生模型的性能,同时加深层数。

在本文中,我们提出了一种两步蒸馏,通过使用 TA 模型进行基于提示的训练来模拟隐藏层和输出层。第一步,我们使用 TA 模型作为学生模型,并使用基于提示的训练和蒸馏来训练 TA 模型以优化其参数。第二步,我们使用 TA 模型作为老师。在这里,目标学生模型通过基于提示的训练和蒸馏进行训练。通过这种方式,将基于提示的训练方法与 TAKD 相结合,在加深层的同时压缩模型以实现更剧烈的模型压缩,这是我们提出的方法的新颖之处。

在实验中,我们使用CIFAR-10数据集来比较所提出的方法和现有方法的性能。

c2bf1c3e999f9b4a661ee24a08a62f7.png

image.gif

Fig. 1. The proposed method for compression into a small and deep neural network model.

Fig. 1.所提出的压缩成小型深度神经网络模型的方法。



目录
相关文章
|
8月前
|
人工智能
港科大等发布多模态图推理问答数据集GITQA
【2月更文挑战第14天】港科大等发布多模态图推理问答数据集GITQA
155 7
港科大等发布多模态图推理问答数据集GITQA
|
8月前
|
数据采集 机器学习/深度学习 数据可视化
ICCV 2023|基于ViT的高效视频识别UniFormerV2开源,K400首次90%准确率!
ICCV 2023|基于ViT的高效视频识别UniFormerV2开源,K400首次90%准确率!
220 0
|
8月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
64 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
3月前
|
机器学习/深度学习 人工智能 算法
【大语言模型-论文速读】GPT的不确定性判断
【大语言模型-论文速读】GPT的不确定性判断
51 0
|
7月前
|
机器学习/深度学习 自然语言处理
解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进
【6月更文挑战第9天】CoPE论文提出了一种新方法,解决Transformer模型位置处理缺陷,通过上下文依赖的位置编码增强序列元素识别,改进选择性复制、计数等任务,提升语言建模和编码任务的困惑度。但CoPE增加模型复杂性,可能受模型大小和数据量限制,且过度依赖上下文可能引入偏见。[https://arxiv.org/pdf/2405.18719]
88 6
|
8月前
|
机器学习/深度学习 人工智能
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
|
vr&ar 计算机视觉
REALY头部重建榜单冠军模型HRN解读【OpenVI—论文解读系列】
高保真 3D 头部重建在许多场景中都有广泛的应用,例如 AR/VR、医疗、电影制作等。尽管大量的工作已经使用 LightStage 等专业硬件实现了出色的重建效果,从单一或稀疏视角的单目图像估计高精细的面部模型仍然是一个具有挑战性的任务。 本文中,我们将介绍CVPR2023最新的头部重建论文,该工作在单图头部重建榜单REALY上取得正脸、侧脸双榜第一,并在其他多个数据集中取得了SOTA的效果。
705 6
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
304 0
|
人工智能
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(1)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
257 0
|
机器学习/深度学习 人工智能 自然语言处理
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(2)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
382 0

热门文章

最新文章