ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM

简介: 【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM

ada.jpg
在自然语言处理(NLP)领域,大型语言模型(LLMs)如GPT-4和LLaMA系列已经取得了显著的成就,它们在各种任务中表现出色,从代码和数学推理到分类和问答。然而,这些模型的庞大参数量和对计算资源的高需求,使得它们在实际应用中的部署面临巨大挑战。为了解决这一问题,研究者们在ICLR 2024会议上提出了一种名为QLLM的新型低比特量化方法,旨在实现对LLMs的精确且高效的量化。

LLMs的高计算和内存需求主要源于其庞大的参数数量。例如,GPT-3模型拥有1750亿个参数,需要至少325GB的半精度(FP16)存储空间。这不仅限制了模型的广泛应用,也对硬件资源提出了更高的要求。为了降低这些需求,研究者们提出了量化感知训练(QAT)和后训练量化(PTQ)两种策略。然而,由于LLMs的参数量巨大,QAT的培训成本过高,使得PTQ成为了更实际的选择。但在极低比特宽度的量化中,如4位权重和/或激活量化,现有的PTQ方法会导致显著的性能下降。

为了克服这些挑战,QLLM方法通过自适应通道重组技术,有效地重新分配了异常值的幅度,减轻了它们对量化范围的影响。这一过程包括通道拆解和通道组装两个步骤。首先,将异常值通道分解为多个子通道,以实现激活幅度的更均匀分布。然后,通过合并相似的通道,保持了原始通道数量,提高了效率。此外,研究者们还设计了一种自适应策略,自动确定通道拆解的最佳子通道数量。

为了进一步补偿量化引起的性能损失,QLLM引入了一种高效的调整方法,该方法仅学习少量的低秩权重,同时冻结预训练的量化模型。这种方法显著减少了训练时间和GPU内存需求,同时在推理过程中不增加任何额外的开销。在LLaMA-1和LLaMA-2模型上的实验结果表明,QLLM能够在10小时内量化4位的LLaMA-2-70B模型,并在五个零样本任务上的平均准确率上比之前的最佳方法提高了7.89%。

QLLM的主要贡献在于提出了一种简单而有效的通道重组方法,通过拆解和合并通道,使激活更易于量化,同时保持了原始通道数量的效率。此外,通过学习低秩参数来对抗量化误差,显著提高了量化模型的性能。这些实验结果不仅展示了QLLM的性能和训练效率,也为未来在LLMs上应用量化方法提供了新的思路。

在网络量化方面,QLLM的研究涵盖了权重量化和激活量化,以及如何在LLMs上有效地应用这些方法。研究者们详细介绍了QLLM的基本原理,包括自适应通道重组、高效的基于梯度的误差校正,以及效率讨论。通过在LLaMA模型系列上的实验,QLLM证明了其有效性,并为未来的研究工作提供了方向。

目录
相关文章
|
3月前
|
机器学习/深度学习 数据处理 计算机视觉
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
71 0
|
8天前
|
人工智能 测试技术 vr&ar
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
【4月更文挑战第22天】北京大学与字节跳动联合研发的Visual AutoRegressive modeling (VAR)是一种创新的图像生成范式,通过“下一尺度预测”而非传统的“下一标记预测”学习视觉分布。VAR在ImageNet基准上提升了自回归模型的FID和IS,同时加快了20倍推理速度,超越扩散变换器。该模型展示出与大型语言模型相似的缩放定律,解决了自回归模型的计算成本问题和扩散模型的速度不足。VAR具备零样本泛化能力,适用于图像修复等任务,未来研究将探索其在高分辨率图像和视频生成中的潜力。[论文链接](https://arxiv.org/abs/2404.02905)
12 1
|
11月前
|
机器学习/深度学习 编解码 计算机视觉
建议背诵 | 字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!
建议背诵 | 字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!
47 0
|
11月前
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
160 0
|
11月前
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
125 0
|
11月前
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
61 0
|
11月前
|
机器学习/深度学习 编解码 数据挖掘
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(一)
139 0
|
11月前
|
机器学习/深度学习 自然语言处理
NeurIPS 2022 | Meta 提出二值transformer网络BiT,刷新NLP网络压缩极限
NeurIPS 2022 | Meta 提出二值transformer网络BiT,刷新NLP网络压缩极限
|
11月前
|
机器学习/深度学习 人工智能 算法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
IEEE TPAMI | 火山语音提出多源迁移高斯回归模型,效果超越多个SOTA方法
164 0
|
11月前
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
188 0

热门文章

最新文章