AAAI 2020 | 超低精度量化BERT,UC伯克利提出用二阶信息压缩神经网络

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。为向读者们分享更多的优质内容、促进学术交流,在 AAAI 2020 开幕之前,机器之心策划了多期线上分享。


微信图片_20211202164306.png

点此查看完整视频

上周四,加州大学伯克利分校 Zhewei Yao 博士分享了他的 AAAI 论文《Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT》,本文对此论文进行了详细解读。该研究介绍了一种使用二阶信息进行模型压缩的新型系统性方法,能够在图像分类、目标检测和自然语言处理等一系列具有挑战性的任务中产生前所未有的小模型。


微信图片_20211202164314.jpg


论文地址:https://arxiv.org/pdf/1909.05840.pdf


研究贡献


该论文对基于 BERT 的模型执行超低精度量化,旨在最小化性能下降幅度,同时保持硬件效率。为此,研究者使用了多项新技术,并提出了新模型 Q-BERT。

该研究的贡献如下:


研究者对二阶信息(即 Hessian 信息)进行大量逐层分析,进而对 BERT 执行混合精度量化。研究发现,与计算机视觉领域中的神经网络相比,BERT 的 Hessian 行为存在极大的不同。因此,该研究提出一种基于 top 特征值均值和方差的敏感度度量指标,以实现更好的混合精度量化。这与仅利用均值的研究 [8] 相反。


研究者提出新的量化机制——组量化(group-wise quantization),该方法能够缓解准确率下降问题,同时不会导致硬件复杂度显著上升。具体而言,组量化机制将每个矩阵分割为不同的组,每个组拥有独立的量化范围和查找表。


研究者调查了 BERT 量化中的瓶颈,即不同因素如何影响 NLP 性能和模型压缩率之间的权衡,这些因素包括量化机制,以及嵌入、自注意力和全连接层等模块。


方法


该研究提出的 BERT 量化方法包括:基于 Hessian 信息的混合精度量化,以及用于组量化机制的技术。


和 [7] 一样,微调后的 BERT_BASE 模型包含三部分:嵌入、基于 Transformer 的编码器层、输出层。BERT_BASE 模型的参数大小为:嵌入 91MB、编码器 325MB、输出 0.01MB。由于输出层的规模极小,该研究并未对这部分执行量化。也就是说,该研究用不同方式对嵌入和编码器参数执行量化。


量化过程


通用神经网络推断通常按照权重和激活的浮点数精度来执行。量化将网络权重限制为一个有限集,如下所示:


微信图片_20211202164330.png


其中 Q 是量化算子,z 是实数输入张量(激活或权重),(t_j , t_j+1] 表示一个区间,j 为实数 (j = 0, . . . , 2^k − 1)。


量化函数 Q 存在多种选择。该研究使用统一的量化函数,张量中的浮点值范围平分 [12, 42],可以用 0, . . . , 2^k − 1 中的无符号整数来表示。但是,研究者选择使用统一的量化函数,以便获得更高效、简便的硬件实现。为了将梯度通过不可微函数 Q 进行反向传播,研究者使用了直通估计器(Straight-through Estimator,STE)。


混合精度量化


研究者探索了混合精度量化,即对敏感度较高的层分配更多 bit,以保持性能。为此研究者开发了 Hessian AWare Quantization (HAWQ)。由于每个层 Hessian 矩阵的大小为 7M × 7M,因此存在一个常见的误解:计算二阶信息并不可行。但是,Hessian 谱可以通过矩阵无关的幂迭代方法来计算,该方法无需显式信息。

为方便读者理解,这里以第一个编码器层为例。将该层的梯度标注为 g_1,对于和 g_1 具备相同维度的随机向量 v,存在


微信图片_20211202164334.png


其中 H_1 是第一个编码器层的 Hessian 矩阵。第二个方程来自于「v 独立于 W_1」这一事实。然后利用幂迭代计算 top 特征值,如附录中算法 1 所示。λ_i 表示第 i 个编码器层的 top 特征值。


微信图片_20211202164337.png

幂迭代算法。


图 2 展示了 BERT_BASE 中不同层的 top Hessian 特征值的分布情况。不同层的特征值数量不同,尽管所有层的结构和大小均相同。


微信图片_20211202164341.jpg

图 2:从 (a) 到 (d):不同编码器层在 SST-2、MNLI、CoNNL-03、SQuAD 任务上的 top 特征值分布情况。


对于 top 特征值较小的层(图 1 中比较平坦的损失分布),会执行更具攻击性的量化。但是,研究者发现,仅基于平均 top 特征值来分配 bit 的做法不适用于很多 NLP 任务。

微信图片_20211202164344.jpg

图 1:不同层在 MNLI 和 CoNNL-03 任务上的损失分布,该分布图是通过沿着 Hessian 矩阵的前两个主要特征值扰动参数绘制而成的。铜球表示参数空间中 BERT 模型的收敛点。这些层表明较平坦的曲率会被量化为较低精度。


为了解决此问题,研究者使用以下度量指标来替代仅使用均值的方法:

微信图片_20211202164347.png


其中 λ_i 是 H_i top 特征值的分布,基于 10% 的训练数据集计算得到。接下来,研究者基于选择的精度设置执行量化感知的微调(quantization-aware fine-tuning)。


研究者强调了一个重要的技术点:该方法预计,在执行量化前,训练模型已收敛至局部极小值。必要的最优性条件是零梯度和正曲率(即正 Hessian 特征值)。

根据分析,研究者发现,在 MNLI、CoNLL-03 和 SST-2 这三项任务中,top Hessian 特征值确实为正值。但针对 SQuAD 微调后的 BERT 模型无法收敛至局部极小值,参见图 2d 中的 Hessian 特征值,那里存在非常大的负特征值。直接可视化损失分布也可以证明这一点,详见下图 3:

微信图片_20211202164351.jpg

图 3:不同层在 SQuAD 任务上的损失分布,该分布图是通过沿着 Hessian 矩阵的前两个主要特征值扰动参数绘制而成的。铜球表示参数空间中 BERT 模型的收敛点。


组量化


假设输入序列中有 n 个词,每个词有一个 d 维嵌入向量(BERT_BASE 中 d = 768)。在 Transformer 编码器中,每一个自注意力头具备 4 个密集矩阵,即


微信图片_20211202164354.png


其中 N_h 是注意力头的数量。这里,W_k、W_q、W_v 和 W_o 分别表示 key、query、值和输出权重矩阵。每个自注意力头按以下公式计算加权和:


微信图片_20211202164357.png


该研究针对基于注意力的模型提出组量化机制。将多头自注意力(MHSA)的密集矩阵中每个注意力头的矩阵 W 看作一个组,这样一共有 12 组。在每个组中,将多个顺序输出神经元看作一个子组,每个子组具备自己的量化范围。


W_v 的图示见下图 4,研究者将 N_h 值矩阵 W_v 连接为一个三维张量。


微信图片_20211202164402.jpg

图 4:组量化方法概览。该图使用多头自注意力层的值矩阵绘制而成。


实验


研究者在四个下游任务中评估 Q-BERT,这些任务包括情感分类、自然语言推断、命名实体识别和机器阅读理解。Q-BERT 达到了 13 倍的权重压缩率,激活大小和嵌入大小仅为原版的 1/4,且准确率损失在 2.3% 以内。


据作者表示,这是首个将 BERT 以超低精度进行量化,且还能保持性能损失在可接受范围内的工作。


微信图片_20211202164405.jpg

表 1:BERT_BASE 在自然语言理解任务上的量化结果,每个层有 128 个组。出于简洁性和效用考虑,除基线以外的所有模型都使用 8-bits 激活。此外,研究者对比了 Q-BERT 和未使用混合精度量化或组量化的直接量化方法(DirectQ)。


微信图片_20211202164409.jpg

表 2:Q-BERT 组量化在三个任务上的效果。所有任务中量化 bit 的设置均为:权重 4、嵌入 8、激活 8。自上而下,组的数量逐渐增加。为了平衡准确率和硬件效率,其他实验中的组数量均为 128。


微信图片_20211202164411.jpg

表 3:不同模块的量化效果。ew-bits、ep-bits、s-bits 和 f-bits 分别表示词嵌入、位置嵌入、多头注意力层和全连接层所使用的量化 bit。(a) (b) 中,权重和激活 bit 均设置为 8。


微信图片_20211202164414.jpg

图 5:Q-BERT/DirectQ 和基线模型之间的注意力分布 KL 散度。Q-BERT 和基线之间的距离要比 DirectQ 和基线之间的距离短得多。


文为机器之心发布,转载请联系本公众号获得授权

相关文章
|
6月前
|
知识图谱 异构计算
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
45 3
ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天
|
机器学习/深度学习 测试技术 计算机视觉
【计算机视觉 | ViT-G】谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
谷歌大脑提出 ViT-G:缩放视觉 Transformer,高达 90.45% 准确率
|
计算机视觉
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
大连理工卢湖川团队TMI顶刊新作 | M^2SNet: 新颖多尺度模块 + 智能损失函数 = 通用图像分割SOTA网络
474 0
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
【论文速递】ICLR2023 - 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究
106 0
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
199 0
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
177 0
|
机器学习/深度学习 编解码 人工智能
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion
130 0
|
存储 算法 数据可视化
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%(1)
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
159 0
|
机器学习/深度学习 存储 数据可视化
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%(2)
ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
161 0
|
机器学习/深度学习 编解码 算法
超越GhostNet!吊打MobileNetV3!MicroNet通过极低FLOPs实现图像识别(文末获取论文)(一)
超越GhostNet!吊打MobileNetV3!MicroNet通过极低FLOPs实现图像识别(文末获取论文)(一)
263 0
下一篇
无影云桌面