【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

简介: 【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

  【论文速递】PeRConAI2022 - 使用教师助理的多阶段模型压缩和基于提示的训练的蒸馏

【论文原文】:Multi-Stage Model Compression using Teacher Assistant and Distillation with Hint-Based Training

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9767229

image.gif

博主关键词:蒸馏,基于提示的训练,模型压缩,图像分类

推荐相关论文:

- 无

image.gif

摘要:

大型神经网络在各种应用中都表现出高性能,但是,它们不适合智能手机等小型设备。因此,需要实现易于部署在小型设备中并具有高性能的小型网络。解决这个问题的方法之一是蒸馏,它可以通过从大型高性能教师模型中转移知识来获得具有高性能的小型神经网络。但是,如果教师模型和学生模型之间的参数数量存在较大差异,则蒸馏可能无法正常工作。在本文中,我们使用教师助理(TA)模型,该模型在教师模型和学生模型之间的层数中处于中间位置,以执行隐藏层和输出层的多步压缩,这是一种称为基于提示的训练的技术。首先,我们通过使用教师模型并针对隐藏层和输出层进行蒸馏来优化 TA 模型。然后,使用 TA 模型作为老师,我们对学生模型上的隐藏层和输出层执行相同的提炼。通过这种方式,我们通过减小模型的大小,同时逐步增加层的深度来提高学生模型的性能。实验表明,所提方法能够将简单的CNN模型压缩到参数比原始神经网络约1/7的大小,同时保持测试数据集相同的分类精度。在使用瓶颈架构的ResNet的学生模型中,所提出的方法优于教师模型,教师模型的参数数量大约是所提模型的8倍。此外,与现有研究相比,所提出的方法在学生模型中取得了最佳性能。

简介:

近年来,深度学习在人工智能领域取得了显著成果。特别是,具有大量卷积层的卷积神经网络(CNN)成功地获得了高性能。此外,随着深度学习方法的发展和GPU等硬件性能的提高,大规模训练神经网络变得更加容易。众所周知,这些神经网络在图像分类和图像识别等问题上表现良好,并且已经开发了VGGnet和ResNet等神经网络模型。但是,它们不适合在智能手机等小型设备中使用,因为此类设备的计算资源有限,这使得难以使用大型CNN。因此,需要实现可以轻松部署在小型设备中并且仍然具有高性能的CNN。

解决这个问题的方法之一是蒸馏,其中使用大型CNN作为教师模型来压缩模型。在蒸馏中,大型CNN用作教师模型,并将知识转移以训练较小的模型,该模型用作学生模型。蒸馏可用于获得具有高性能的小型CNN。但是,如果教师和学生之间的参数数量差异很大,蒸馏可能无法正常工作。作为这个问题的解决方案,有一种称为教师助理知识蒸馏(TAKD)的方法,它使用教师助理(TA)模型,该模型介于教师和学生模型之间。然而,这种方法只关注蒸馏,它考虑了输出层的损失,因此还有改进的余地。其中一种方法是基于提示的训练,它模仿隐藏层的响应,以更准确地转移教师模型的输入输出关系。本文的目的是在教师和学生模型之间的参数数量存在较大差异时,通过应用模型压缩来进一步提高学生模型的性能,同时加深层数。

在本文中,我们提出了一种两步蒸馏,通过使用 TA 模型进行基于提示的训练来模拟隐藏层和输出层。第一步,我们使用 TA 模型作为学生模型,并使用基于提示的训练和蒸馏来训练 TA 模型以优化其参数。第二步,我们使用 TA 模型作为老师。在这里,目标学生模型通过基于提示的训练和蒸馏进行训练。通过这种方式,将基于提示的训练方法与 TAKD 相结合,在加深层的同时压缩模型以实现更剧烈的模型压缩,这是我们提出的方法的新颖之处。

在实验中,我们使用CIFAR-10数据集来比较所提出的方法和现有方法的性能。

c2bf1c3e999f9b4a661ee24a08a62f7.png

image.gif

Fig. 1. The proposed method for compression into a small and deep neural network model.

Fig. 1.所提出的压缩成小型深度神经网络模型的方法。



目录
相关文章
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
存储 Ubuntu 安全
百度搜索:蓝易云【Ubuntu系统离线安装Telnet服务教程。】
确保在进行任何系统配置更改之前备份重要的数据,并在操作过程中小心谨慎,以免造成不必要的问题。
411 0
|
IDE PyTorch 网络安全
|
Docker 容器
Minio Docker安装官方指南
Minio Docker安装官方指南
Minio Docker安装官方指南
|
前端开发 JavaScript 测试技术
React 模拟测试与 Jest
【10月更文挑战第21天】本文介绍了如何使用 Jest 进行 React 组件的单元测试和模拟测试,涵盖了基础概念、常见问题及解决方案,并提供了实践案例。通过学习本文,你将掌握如何有效地使用 Jest 提高代码质量和稳定性。
357 1
|
小程序
【奇葩问题】微信小程序 We分析 访问来源Top10的总比例为什么不止100%
【奇葩问题】微信小程序 We分析 访问来源Top10的总比例为什么不止100%
207 3
|
机器学习/深度学习 存储 数据挖掘
基于YOLOv8深度学习的生活垃圾分类目标检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
基于YOLOv8深度学习的生活垃圾分类目标检测系统【python源码+Pyqt5界面+数据集+训练代码】目标检测
|
数据采集 Java 数据库连接
项目经验还写外卖和商城?来看看异构数据源数据流转服务 DatalinkX
你是否马上准备秋招、春招但没有项目经验,总觉得竞争力低 你是否一直浸泡在增删改查的业务代码,恼火技术成长过慢 你是否厌倦了XX学院、XX商城、XXRPC框架等网红项目 你是否想接触一线互联网公司项目架构与前沿技术栈 来跟我一起从零搭建基于Flink的异构数据源同步服务
948 0
|
存储 SQL 关系型数据库
MySQL索引下推:原理与实践
MySQL索引下推:原理与实践
|
网络协议 中间件 Linux
SOME/IP概述2【SOME/IP的主要中间件功能+SOME/IP报文PDU的封装】
SOME/IP概述2【SOME/IP的主要中间件功能+SOME/IP报文PDU的封装】
SOME/IP概述2【SOME/IP的主要中间件功能+SOME/IP报文PDU的封装】