AAAI 2020 | 超低精度量化BERT,UC伯克利提出用二阶信息压缩神经网络

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。为向读者们分享更多的优质内容、促进学术交流,在 AAAI 2020 开幕之前,机器之心策划了多期线上分享。

1638452800(1).png点击查看链接

上周四,加州大学伯克利分校 Zhewei Yao 博士分享了他的 AAAI 论文《Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT》,本文对此论文进行了详细解读。该研究介绍了一种使用二阶信息进行模型压缩的新型系统性方法,能够在图像分类、目标检测和自然语言处理等一系列具有挑战性的任务中产生前所未有的小模型。

微信图片_20211202214836.jpg


论文地址:https://arxiv.org/pdf/1909.05840.pdf


研究贡献


该论文对基于 BERT 的模型执行超低精度量化,旨在最小化性能下降幅度,同时保持硬件效率。为此,研究者使用了多项新技术,并提出了新模型 Q-BERT。

该研究的贡献如下:


研究者对二阶信息(即 Hessian 信息)进行大量逐层分析,进而对 BERT 执行混合精度量化。研究发现,与计算机视觉领域中的神经网络相比,BERT 的 Hessian 行为存在极大的不同。因此,该研究提出一种基于 top 特征值均值和方差的敏感度度量指标,以实现更好的混合精度量化。这与仅利用均值的研究 [8] 相反。


研究者提出新的量化机制——组量化(group-wise quantization),该方法能够缓解准确率下降问题,同时不会导致硬件复杂度显著上升。具体而言,组量化机制将每个矩阵分割为不同的组,每个组拥有独立的量化范围和查找表。


研究者调查了 BERT 量化中的瓶颈,即不同因素如何影响 NLP 性能和模型压缩率之间的权衡,这些因素包括量化机制,以及嵌入、自注意力和全连接层等模块。


方法


该研究提出的 BERT 量化方法包括:基于 Hessian 信息的混合精度量化,以及用于组量化机制的技术。


和 [7] 一样,微调后的 BERT_BASE 模型包含三部分:嵌入、基于 Transformer 的编码器层、输出层。BERT_BASE 模型的参数大小为:嵌入 91MB、编码器325MB、输出 0.01MB。由于输出层的规模极小,该研究并未对这部分执行量化。也就是说,该研究用不同方式对嵌入和编码器参数执行量化。


量化过程


通用神经网络推断通常按照权重和激活的浮点数精度来执行。量化将网络权重限制为一个有限集,如下所示:

微信图片_20211202214843.jpg


其中 Q 是量化算子,z 是实数输入张量(激活或权重),(t_j , t_j+1] 表示一个区间,j 为实数 (j = 0, . . . , 2^k − 1)。

量化函数 Q 存在多种选择。该研究使用统一的量化函数,张量中的浮点值范围平分 [12, 42],可以用 0, . . . , 2^k − 1 中的无符号整数来表示。但是,研究者选择使用统一的量化函数,以便获得更高效、简便的硬件实现。为了将梯度通过不可微函数 Q 进行反向传播,研究者使用了直通估计器(Straight-through Estimator,STE)。


混合精度量化


研究者探索了混合精度量化,即对敏感度较高的层分配更多 bit,以保持性能。为此研究者开发了 Hessian AWare Quantization (HAWQ)。由于每个层 Hessian 矩阵的大小为 7M × 7M,因此存在一个常见的误解:计算二阶信息并不可行。但是,Hessian 谱可以通过矩阵无关的幂迭代方法来计算,该方法无需显式信息。

为方便读者理解,这里以第一个编码器层为例。将该层的梯度标注为 g_1,对于和 g_1 具备相同维度的随机向量 v,存在

微信图片_20211202214847.jpg


其中 H_1 是第一个编码器层的 Hessian 矩阵。第二个方程来自于「v 独立于 W_1」这一事实。然后利用幂迭代计算 top 特征值,如附录中算法 1 所示。λ_i 表示第 i 个编码器层的 top 特征值。

微信图片_20211202214850.jpg

幂迭代算法。


图 2 展示了 BERT_BASE 中不同层的 top Hessian 特征值的分布情况。不同层的特征值数量不同,尽管所有层的结构和大小均相同。

微信图片_20211202214853.jpg

图 2:从 (a) 到 (d):不同编码器层在 SST-2、MNLI、CoNNL-03、SQuAD 任务上的 top 特征值分布情况。

对于 top 特征值较小的层(图 1 中比较平坦的损失分布),会执行更具攻击性的量化。但是,研究者发现,仅基于平均 top 特征值来分配 bit 的做法不适用于很多 NLP 任务。

微信图片_20211202214857.jpg

图 1:不同层在 MNLI 和 CoNNL-03 任务上的损失分布,该分布图是通过沿着 Hessian 矩阵的前两个主要特征值扰动参数绘制而成的。铜球表示参数空间中 BERT 模型的收敛点。这些层表明较平坦的曲率会被量化为较低精度。


为了解决此问题,研究者使用以下度量指标来替代仅使用均值的方法:

微信图片_20211202214901.jpg


其中 λ_i 是 H_i top 特征值的分布,基于 10% 的训练数据集计算得到。接下来,研究者基于选择的精度设置执行量化感知的微调(quantization-aware fine-tuning)。

研究者强调了一个重要的技术点:该方法预计,在执行量化前,训练模型已收敛至局部极小值。必要的最优性条件是零梯度和正曲率(即正 Hessian 特征值)。

根据分析,研究者发现,在 MNLI、CoNLL-03 和 SST-2 这三项任务中,top Hessian 特征值确实为正值。但针对 SQuAD 微调后的 BERT 模型无法收敛至局部极小值,参见图 2d 中的 Hessian 特征值,那里存在非常大的负特征值。直接可视化损失分布也可以证明这一点,详见下图 3:

微信图片_20211202214904.jpg

图 3:不同层在 SQuAD 任务上的损失分布,该分布图是通过沿着 Hessian 矩阵的前两个主要特征值扰动参数绘制而成的。铜球表示参数空间中 BERT 模型的收敛点。

组量化

假设输入序列中有 n 个词,每个词有一个 d 维嵌入向量(BERT_BASE 中 d = 768)。在 Transformer 编码器中,每一个自注意力头具备 4 个密集矩阵,即

微信图片_20211202214909.jpg


其中 N_h 是注意力头的数量。这里,W_k、W_q、W_v 和 W_o 分别表示 key、query、值和输出权重矩阵。每个自注意力头按以下公式计算加权和:

image.gif

微信图片_20211202214912.jpg该研究针对基于注意力的模型提出组量化机制。将多头自注意力(MHSA)的密集矩阵中每个注意力头的矩阵 W 看作一个组,这样一共有 12 组。在每个组中,将多个顺序输出神经元看作一个子组,每个子组具备自己的量化范围。


W_v 的图示见下图 4,研究者将 N_h 值矩阵 W_v 连接为一个三维张量。

微信图片_20211202214915.jpg


图 4:组量化方法概览。该图使用多头自注意力层的值矩阵绘制而成。


实验


研究者在四个下游任务中评估 Q-BERT,这些任务包括情感分类、自然语言推断、命名实体识别和机器阅读理解。Q-BERT 达到了 13 倍的权重压缩率,激活大小和嵌入大小仅为原版的 1/4,且准确率损失在 2.3% 以内。

据作者表示,这是首个将 BERT 以超低精度进行量化,且还能保持性能损失在可接受范围内的工作。


微信图片_20211202214918.jpg

表 1:BERT_BASE 在自然语言理解任务上的量化结果,每个层有 128 个组。出于简洁性和效用考虑,除基线以外的所有模型都使用 8-bits 激活。此外,研究者对比了 Q-BERT 和未使用混合精度量化或组量化的直接量化方法(DirectQ)。

微信图片_20211202214923.jpg

表 2:Q-BERT 组量化在三个任务上的效果。所有任务中量化 bit 的设置均为:权重 4、嵌入 8、激活 8。自上而下,组的数量逐渐增加。为了平衡准确率和硬件效率,其他实验中的组数量均为 128。

微信图片_20211202214925.jpg

表 3:不同模块的量化效果。ew-bits、ep-bits、s-bits 和 f-bits 分别表示词嵌入、位置嵌入、多头注意力层和全连接层所使用的量化 bit。(a) (b) 中,权重和激活 bit 均设置为 8。

微信图片_20211202214929.jpg

图 5:Q-BERT/DirectQ 和基线模型之间的注意力分布 KL 散度。Q-BERT 和基线之间的距离要比 DirectQ 和基线之间的距离短得多。



相关文章
|
11天前
|
安全 网络安全 数据安全/隐私保护
网络安全漏洞与加密技术:保护信息的艺术
【8月更文挑战第31天】在数字时代,网络安全和信息安全的重要性日益凸显。本文将探讨网络安全漏洞、加密技术以及提升安全意识等方面的内容。我们将通过实际代码示例和案例分析,深入了解网络攻击者如何利用安全漏洞进行攻击,以及如何运用加密技术来保护数据安全。同时,我们还将讨论如何提高个人和组织的安全意识,以应对不断变化的网络安全威胁。让我们一起探索这个充满挑战和机遇的领域吧!
|
20天前
|
监控 网络协议 Linux
在Linux中,如何实时抓取并显示当前系统中tcp 80 端口的网络数据信息?
在Linux中,如何实时抓取并显示当前系统中tcp 80 端口的网络数据信息?
|
20天前
|
安全 网络安全 网络虚拟化
网络工程师必知的神秘术语大全究竟藏着哪些关键信息?快来一探究竟!
【8月更文挑战第22天】这份最新整理的网络技术中英文术语大全对于网络工程师来说是一份宝贵的资源。它可以帮助网络工程师更好地理解和掌握网络技术,提高工作效率,解决各种网络问题。无论是在网络规划、设计、实施还是维护阶段,这些术语都将发挥重要的作用。让我们一起收藏这份术语大全,为网络技术的学习和实践打下坚实的基础。
28 1
|
29天前
|
监控 安全 网络安全
云计算与网络安全:探索云服务时代的信息保护
【8月更文挑战第14天】在数字化浪潮的推动下,云计算技术迅速发展并深入到各行各业。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战和信息安全实践,分析云服务提供者和用户如何共同维护数据安全,以及在云环境中实施有效安全策略的重要性。
|
30天前
|
监控 安全 网络安全
【网络互联新篇章】揭秘转发路由器:企业级互联网络的守护神,打造坚不可摧的信息高速公路!
【8月更文挑战第13天】转发路由器(TR)是企业级网络架构中的关键组件,实现不同网络间互联互通,提供灵活性与可靠性。TR负责路由决策、负载均衡、故障恢复及安全保障。配置涉及接口、路由协议及安全策略设定。适用于多数据中心互联、云服务接入、ISP网络核心及企业分支互联等场景。确保TR高可用性和安全性需采用冗余配置、加密传输、严格的安全策略及持续监控。
39 1
|
11天前
|
存储 传感器 物联网
|
11天前
|
SQL 安全 算法
网络安全漏洞与加密技术:保护信息的关键
【8月更文挑战第31天】在数字化时代,信息安全成为我们每个人都必须面对的问题。本文将探讨网络安全的漏洞、加密技术以及如何提高安全意识来保护我们的信息。我们将通过一些代码示例,更深入地理解这些概念。无论你是网络专家还是普通用户,这篇文章都将为你提供有价值的信息。让我们一起探索这个充满挑战和机遇的网络世界吧!
|
11天前
|
SQL 安全 网络安全
网络安全漏洞与信息保护:技术解析与安全意识提升
【8月更文挑战第31天】在数字化浪潮中,网络安全和信息安全成为维护个人隐私与企业资产的关键。本文深入探讨网络安全的薄弱环节,如软件漏洞、加密技术的运用及其局限,并强调培养安全意识的重要性。通过实际代码示例,揭示网络攻击的常见手段,并提供防御策略,旨在为读者提供全面的安全知识框架,促进更安全的网络环境构建。
|
16天前
|
存储 SQL 安全
数字防线之下:网络安全与信息保护的现代策略
【8月更文挑战第27天】 在数字化时代的浪潮中,网络安全和信息安全成为维护个人隐私、企业资产和国家安全的重要支柱。本文深入探讨了网络安全漏洞的常见形式、加密技术的关键作用以及提高安全意识的必要性。我们将从网络攻击的实际案例出发,分析如何通过技术和教育手段强化防护措施,确保数据的安全传输和存储。此外,文章还将提供实用的建议,帮助读者识别潜在的网络威胁,采取有效的预防措施。
28 0
|
19天前
|
Kubernetes 监控 Shell
在K8S中,我们公司用户反应pod连接数非常多,希望看一下这些连接都是什么信息?什么状态?怎么排查?容器里面没有集成bash环境、网络工具,怎么处理?
在K8S中,我们公司用户反应pod连接数非常多,希望看一下这些连接都是什么信息?什么状态?怎么排查?容器里面没有集成bash环境、网络工具,怎么处理?