高精度压缩Transformer,NNI剪枝一站式指南

简介: 高精度压缩Transformer,NNI剪枝一站式指南



 新智元报道  

来源:微软亚洲研究院编辑:QQ

【新智元导读】集成前沿算法,NNI(Neural Network Intelligence)大更新。

无论在学术界还是产业界,今年人工智能大模型都是爆款话题。但面对这些动不动就数十亿级别参数的模型,使用传统方法微调,宛如水中捞月、海底捞针。作为微软亚洲研究院为科研人员和算法工程师量身定制的一站式 AutoML(自动机器学习)工具, NNI(Neural Network Intelligence)在过去的三年间不断迭代更新,加强了对各种分布式训练环境的支持,成为了最热门的 AutoML 开源项目之一。近日,微软亚洲研究院对 NNI 进行了更新。在最新的版本中,NNI 集成了大量前沿的剪枝算法,如 TaylorFO Weight、Movement 等。基于现有的经典预训练模型,研究员们通过大量实验,发现了既能降低模型参数量和计算量,又能保持模型较高精度的剪枝步骤与算法组合,获得超越 SOTA 的模型剪枝效果。今天我们就以 Transformer 系列的预训练模型和数据集 GLUE-MNLI 为例,为大家介绍一下 NNI 的 pruner 剪枝流程和使用的剪枝算法组合。

剪枝流程

在正式介绍剪枝流程前,我们需要先了解什么是 pruner,mask 和 SpeedUp。

  • pruner:使用具体的剪枝算法实例化的剪枝器。
  • mask:在剪枝过程中,pruner 会生成一个和目标子模块大小相同的 mask(全1)矩阵,并在 mask 矩阵中将目标子模块中需要剪掉的部分的对应位置置为0。最后通过将目标子模块和对应的 mask 矩阵相乘,即可得到模拟剪枝后的模型效果。
  • SpeedUp:从上述描述可以看出,在剪枝过程中,实际上只是将需要剪枝的部分用0进行了替换,因此使用 SpeedUp 模块是修剪上述目标子模块中需要剪掉的参数,而不是用0替代,从而实现真正意义上的减少参数量。

在使用 NNI Compression 模块中的 pruner 进行剪枝操作时,用户只需完成数据/模型等的准备、pruner 的构建,以及模型剪枝和再训练,即可为模型构建一个剪枝的 pipeline。以 Transformer 系列的预训练模型为例,其剪枝流程共包含4步:首先准备数据/模型等,接着针对多头自注意力机制(Multi-head Attention)、嵌入层(embedding)和前馈神经网络(FFN)分别剪枝和再训练模型。

图1:Transformer 系列模型的剪枝流程示意图

1. 准备数据/模型等在正式构建剪枝过程之前,用户需要加载预训练模型,对数据预处理并创建相应的 dataloader,同时设计相应的训练/评估函数,以用于后期对模型的训练和评估。其流程如图2所示,共包含5步:图2:数据/模型准备过程的流程示意图具体来说,首先需要从 Transformers 库中加载预训练模型,然后对数据 GLUE-MNLI 进行处理,并得到相应的 dataloader。随后,针对模型和数据集 GLUE-MNLI,构建相应的训练/评估函数。最后将模型在 GLUE-MNLI 数据集上进行微调。完成以上步骤就相当于完成了数据/模型等的准备工作,可以得到预训练模型在 MNLI 数据集上微调后的模型。考虑到 Transformer 系列预训练模型的模型参数中的大头为嵌入层,且编码层/解码层中包含了多头自注意力机制和前馈神经网络。因此,在之后的步骤中需要分别对多头自注意力机制、嵌入层和前馈神经网络剪枝,并引入动态蒸馏机制对剪枝后的模型再训练。2. 多头自注意力机制的剪枝和基于动态蒸馏机制的模型再训练多头自注意力模块的剪枝和模型再训练分为3步,如图3所示:首先要构建 pruner,接着对多头自注意力模块进行剪枝,最后使用动态蒸馏机制再训练模型。

图3:多头自注意力机制的剪枝和再训练流程示意图在进行剪枝前,用户需要选定一个剪枝算法并实例化相应的 pruner。所有的剪枝算法均需向模型中传入 config_list 参数,因为其定义了需要剪枝的运算名、运算类别及稀疏度等。具体到 Movement 剪枝算法,还需要设置其他的一些参数,如:evaluator 参数,用于训练感知的模型压缩过程;movement_mode 参数,共有「soft」和「hard」两种模式,若为「soft」,则难以精确地控制模型剪枝后的稀疏度,但是可以得到性能更好的模型。参数 regular_scale 用于控制剪枝的稀疏度,regular_scale 越大,模型剪枝后的稀疏度越高。接下来,要使用构造的剪枝算法实例 pruner 对多头自注意力模块进行剪枝。用户只需调用 pruner.compress() 即可执行对模型的剪枝过程,并得到剪枝后的模型和 attention_mask。其中 attention_mask 给出了需要剪枝的子模块的参数剪枝范围,0代表该位置被剪掉,1代表该位置被保留。NNI 的 SpeedUp 模块可以将被 mask 住的参数和计算从模型中删除,具体的删除逻辑如图4所示,以 Query Linear 层的 weight(记作Q)为例,其维度为[768,768],那么 Q 的 weight 的 mask 矩阵维度也为[768, 768],将其记作 mask。首先将该 mask 矩阵的维度进行变换,第一维是多头数目8,其余的则是第二维,将变换后的 mask 矩阵记作 reshaped mask 矩阵。接着,对 reshaped mask 矩阵在第二维度上求和,并判断求和后的值是否为0,此时的 mask 矩阵维度变为[8],每个位置对应着一个多头。对于变换后的 mask 矩阵,若位置 i 的值为0,则代表在 Q 中的第 i 个多头需要被剪掉。在图中,位置0、3、7的值均为0,因此,在Q中的第0、3、7个多头需要被剪掉。最后,将[0,3,7]作为参数传入 prune_heads 函数中,对 Q 进行修剪。修剪后,Q 的维度为[576,768]。对 SpeedUp 更加全面的介绍可以参考发表于 OSDI 2022 的论文 SparTA。在即将发布的 NNI 3.0 中 SpeedUp 会对更多模型提供更加完善的支持。

图4:利用 prune_heads 函数修剪自注意力模块的过程示意图在对多头自注意力模块剪枝后,以微调后的模型作为教师模型,以剪枝后的模型作为学生模型,然后借鉴 CoFi 中的动态蒸馏机制 [1] 对模型进行再训练,就可以得到新的模型。这里的动态蒸馏机制,是指教师模型的层和学生模型的层之间不是一个静态对应关系,每次蒸馏教师都可以选择从自身的高层动态蒸馏信息到学生模型低层中的一层里。3. 嵌入层和前馈神经网络的剪枝,以及基于动态蒸馏机制的模型再训练嵌入层和前馈神经网络的剪枝过程与多头自注意力模块的剪枝过程类似。此处使用 Taylor 剪枝算法对嵌入层和前馈神经网络进行剪枝。同样地,研究员们定义了 config_list、evaluator 参数及 taylor_pruner_steps 参数。由于嵌入层的维度与后续模型中的维度具有相关性。因此,基于上述参数,在嵌入层的剪枝过程中研究员们将剪枝模式 mode 设置为了「dependency-aware」模式,并传入模型的输入 dummy_input,以帮助 pruner 捕捉和嵌入层维度具有依赖关系的子模型。接下来,使用分别构造的 pruner 对前馈神经网络和嵌入层进行剪枝。和多头自注意力模块的剪枝不同的是,此处使用了迭代式剪枝法,即在模型基于动态蒸馏的再训练过程中,每2000步分别使用 pruner 对前馈神经网络和嵌入层剪枝一次,其中,前馈神经网络共剪枝19/24次,嵌入层共剪枝3次。每次剪枝后,使用 ModelSpeedUp 对前馈神经网络层进行剪枝,以实现真正意义上的修剪参数,而不是将需要修剪的参数用0替换。

实验结果

通过调整 regular_scale 参数的值和前馈神经网络的剪枝次数,研究员们得到了具有不同稀疏度和性能的模型。该过程使用了1张 A100 进行实验,并设置 batch_size 为32。

图5:实验结果从上图实验结果可以看出:

  1. 随着 regular_scale 的增加,模型总的稀疏度有所增加。当 regular_scale 大于等于10时,模型总的稀疏度超过了69%,性能损失超过1%。
  2. 随着前馈神经网络剪枝次数的增加,模型总的稀疏度有所增加,同时模型的性能有所下降,且随着模型总稀疏度的增加,模型的性能下降程度逐渐增大。
  3. 对嵌入层剪枝3次,能够将模型的维度从768减小至561,在一定程度上提升了模型总的稀疏度。

实验结果与平台对比

进一步分析实验结果可以发现,使用 NNI 对 BERT 在 MNLI 数据集上剪枝后的性能好于 nn pruning 框架(图6(a)),且当模型总的稀疏度低于65%时,NNI 和 CoFi 对 BERT 在 MNLI 数据集上剪枝的性能差距较小,当模型总的稀疏度大于65%时,使用 NNI 对 BERT 在 MNLI 数据集上剪枝后的性能好于 CoFi。图6(b)和图6(c)分别展示了 NNI 在 T5 和 ViT 模型上的剪枝性能。从图中可以看出,当模型相应部分的稀疏度超过了75%后,模型性能下降约为3%,当模型相应部分的稀疏度低于50%时,模型性能下降较少。

(a)

(b)

(c)图6:NNI 在经典预训练模型下的剪枝性能示意图三个平台(Paper)的详细比较结果,如表1所示。可以看出,NNI 的 Compression 模块不仅具有完整的教程实例,同时还提供了 SpeedUp 模块,能够实现真正意义上的减少模型参数量,而非将需要修剪的参数置为0。同时,NNI 支持 BERT、RoBerta、GPT、BART、T5、ViT 等主流模型,并提供了 Taylor、Movement、ADMM、Slim、AGP、Activation APoZ、Activation Mean 等16种前沿剪枝算法,能够更好地满足用户的需求,具有较强的通用性。

表1:各平台(Paper)功能对比总结

展望未来

在 NNI 3.0 版本中,微软亚洲研究院的研究员们还将引入蒸馏模块,更好地为用户提供集剪枝、蒸馏为一体的压缩工具,同时 SpeedUp 模块也将更全面地支持对 Transformer 的修剪。敬请期待!关于最新版 NNI 的完整代码和 tutorial,请参见:https://nni.readthedocs.io/zh/stable/tutorials/pruning_bert_glue.html参考资料:https://arxiv.org/pdf/2204.00408.pdf

相关文章
|
6月前
|
机器学习/深度学习 存储 算法
【轻量化网络】概述网络进行轻量化处理中的:剪枝、蒸馏、量化
【轻量化网络】概述网络进行轻量化处理中的:剪枝、蒸馏、量化
223 0
|
3月前
|
机器学习/深度学习 存储 边缘计算
深度学习之高效模型压缩
基于深度学习的高效模型压缩技术在确保模型性能的同时,显著减少了模型的存储需求和计算复杂度,从而使得深度学习模型能够更好地适应资源受限的环境(如移动设备、嵌入式系统)并加快推理速度。
163 64
|
1月前
|
机器学习/深度学习 自然语言处理
深度学习中的模型压缩技术:精度与效率的平衡
在深度学习领域,模型压缩技术已经成为一项关键技术。它通过减少模型的参数数量和计算量,实现了模型的轻量化和高效化。本文将介绍几种常见的模型压缩方法,包括参数剪枝、量化、知识蒸馏等,并探讨这些方法如何帮助模型在保持精度的同时提高运行效率。我们将分析每种方法的原理、实现步骤以及优缺点,并通过实验结果对比不同方法的性能表现。最后,我们将讨论模型压缩技术在未来可能的发展方向及其应用前景。
54 1
|
5月前
|
机器学习/深度学习 存储 自然语言处理
【机器学习】LoRA:大语言模型中低秩自适应分析
【机器学习】LoRA:大语言模型中低秩自适应分析
271 5
|
6月前
|
机器学习/深度学习 存储 编解码
利用深度学习优化视频压缩算法
【4月更文挑战第28天】随着数字媒体时代的到来,视频数据量急剧增加,有效的视频压缩技术变得尤为重要。本文探讨了一种基于深度学习的视频压缩框架,旨在提高压缩效率同时保持较高的视频质量。通过使用卷积神经网络(CNN)对视频帧进行特征提取,并结合先进的编码技术,本研究提出了一种新的率失真优化算法。实验结果表明,该算法在多个标准测试序列上相比传统方法能显著降低比特率,同时维持了良好的视觉质量。
|
机器学习/深度学习 人工智能 算法
【CIKM 2023】扩散模型加速采样算法OLSS,大幅提升模型推理速度
近日,阿里云人工智能平台 PAI与华东师范大学陈岑副教授团队合作在深度学习顶级会议 CIKM 2023 上发表 OLSS (Optimal Linear Subspace Search) 算法,这是一种针对扩散模型的采样加速算法。在这篇论文中,扩散模型加速算法的本质被建模成线性子空间的扩张过程,给出了目前方法的统一分析,并基于此设计了新的加速算法,大幅度提升了扩散模型的生成速度。
|
6月前
|
机器学习/深度学习 存储 编解码
利用深度学习优化视频压缩效率的新策略
【4月更文挑战第2天】在数字媒体时代,视频数据占据了互联网流量的主导地位。随着高清、4K甚至8K视频内容的兴起,传统的视频压缩技术面临着巨大挑战。本文提出了一种基于深度学习的视频压缩优化方法,通过训练一个深度神经网络来预测视频帧间的残差信息,实现更高效的压缩。实验结果表明,该策略在保证视频质量的同时,能够显著提高压缩比,减少传输带宽和存储空间的需求。
100 0
|
6月前
|
机器学习/深度学习 并行计算 算法
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
148 0
|
6月前
|
存储 人工智能 并行计算
加速44%!RT-DETR量化无损压缩优秀实战
加速44%!RT-DETR量化无损压缩优秀实战
215 0
|
机器学习/深度学习 存储 人工智能
深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT
深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT
深度学习实践篇[17]:模型压缩技术、模型蒸馏算法:Patient-KD、DistilBERT、DynaBERT、TinyBERT
下一篇
无影云桌面