【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

  【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

【论文原文】:Multi-Stage Model Compression using Teacher Assistant and Distillation with Hint-Based Training

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9767229

image.gif

博主关键词:蒸馏,基于提示的训练,模型压缩,图像分类

推荐相关论文:

- 无

image.gif

摘要:

大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。

简介:

近年来,深度学习在人工智能领域取得了显著成果。特别是,具有大量卷积层的卷积神经网络(CNN)成功地获得了高性能。此外,随着深度学习方法的发展和GPU等硬件性能的提高,大规模训练神经网络变得更加容易。众所周知,这些神经网络在图像分类和图像识别等问题上表现良好,并且已经开发了VGGnet和ResNet等神经网络模型。但是,它们不适合在智能手机等小型设备中使用,因为此类设备的计算资源有限,这使得难以使用大型CNN。因此,需要实现可以轻松部署在小型设备中并且仍然具有高性能的CNN。

解决这个问题的方法之一是蒸馏,其中使用大型CNN作为教师模型来压缩模型。在蒸馏中,大型CNN用作教师模型,并将知识转移以训练较小的模型,该模型用作学生模型。蒸馏可用于获得具有高性能的小型CNN。但是,如果教师和学生之间的参数数量差异很大,蒸馏可能无法正常工作。作为这个问题的解决方案,有一种称为教师助理知识蒸馏(TAKD)的方法,它使用教师助理(TA)模型,该模型介于教师和学生模型之间。然而,这种方法只关注蒸馏,它考虑了输出层的损失,因此还有改进的余地。其中一种方法是基于提示的训练,它模仿隐藏层的响应,以更准确地转移教师模型的输入输出关系。本文的目的是在教师和学生模型之间的参数数量存在较大差异时,通过应用模型压缩来进一步提高学生模型的性能,同时加深层数。

在本文中,我们提出了一种两步蒸馏,通过使用 TA 模型进行基于提示的训练来模拟隐藏层和输出层。第一步,我们使用 TA 模型作为学生模型,并使用基于提示的训练和蒸馏来训练 TA 模型以优化其参数。第二步,我们使用 TA 模型作为老师。在这里,目标学生模型通过基于提示的训练和蒸馏进行训练。通过这种方式,将基于提示的训练方法与 TAKD 相结合,在加深层的同时压缩模型以实现更剧烈的模型压缩,这是我们提出的方法的新颖之处。

在实验中,我们使用CIFAR-10数据集来比较所提出的方法和现有方法的性能。

c2bf1c3e999f9b4a661ee24a08a62f7.png

image.gif

Fig. 1. The proposed method for compression into a small and deep neural network model.

Fig. 1.所提出的压缩成小型深度神经网络模型的方法。



目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模
|
14天前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
2月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
3月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
6月前
|
测试技术 决策智能
专业智能体指导让小模型学会数学推理!微调Mistral-7B实现86.81%准确率
【5月更文挑战第13天】Orca-Math研究展示如何用小模型解决小学数学题,通过70亿参数的SLM在GSM8K基准测试上达到86.81%准确率。采用合成数据集和迭代学习技术,包括多智能体协作创建问题集及“偏好学习”优化解决方案。虽优于其他大、小模型,但可能不适用于复杂数学问题,且依赖高质量合成数据集的创建。[论文链接](https://arxiv.org/abs/2402.14830)
165 4
|
6月前
|
机器学习/深度学习 人工智能
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
106 0
|
6月前
|
机器学习/深度学习 传感器 算法
【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习
【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习
|
人工智能 自然语言处理 文字识别
李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始
李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始
244 0
|
机器学习/深度学习 自然语言处理 并行计算
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
163 0
下一篇
无影云桌面