ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM

简介: 【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM

ada.jpg
在自然语言处理(NLP)领域,大型语言模型(LLMs)如GPT-4和LLaMA系列已经取得了显著的成就,它们在各种任务中表现出色,从代码和数学推理到分类和问答。然而,这些模型的庞大参数量和对计算资源的高需求,使得它们在实际应用中的部署面临巨大挑战。为了解决这一问题,研究者们在ICLR 2024会议上提出了一种名为QLLM的新型低比特量化方法,旨在实现对LLMs的精确且高效的量化。

LLMs的高计算和内存需求主要源于其庞大的参数数量。例如,GPT-3模型拥有1750亿个参数,需要至少325GB的半精度(FP16)存储空间。这不仅限制了模型的广泛应用,也对硬件资源提出了更高的要求。为了降低这些需求,研究者们提出了量化感知训练(QAT)和后训练量化(PTQ)两种策略。然而,由于LLMs的参数量巨大,QAT的培训成本过高,使得PTQ成为了更实际的选择。但在极低比特宽度的量化中,如4位权重和/或激活量化,现有的PTQ方法会导致显著的性能下降。

为了克服这些挑战,QLLM方法通过自适应通道重组技术,有效地重新分配了异常值的幅度,减轻了它们对量化范围的影响。这一过程包括通道拆解和通道组装两个步骤。首先,将异常值通道分解为多个子通道,以实现激活幅度的更均匀分布。然后,通过合并相似的通道,保持了原始通道数量,提高了效率。此外,研究者们还设计了一种自适应策略,自动确定通道拆解的最佳子通道数量。

为了进一步补偿量化引起的性能损失,QLLM引入了一种高效的调整方法,该方法仅学习少量的低秩权重,同时冻结预训练的量化模型。这种方法显著减少了训练时间和GPU内存需求,同时在推理过程中不增加任何额外的开销。在LLaMA-1和LLaMA-2模型上的实验结果表明,QLLM能够在10小时内量化4位的LLaMA-2-70B模型,并在五个零样本任务上的平均准确率上比之前的最佳方法提高了7.89%。

QLLM的主要贡献在于提出了一种简单而有效的通道重组方法,通过拆解和合并通道,使激活更易于量化,同时保持了原始通道数量的效率。此外,通过学习低秩参数来对抗量化误差,显著提高了量化模型的性能。这些实验结果不仅展示了QLLM的性能和训练效率,也为未来在LLMs上应用量化方法提供了新的思路。

在网络量化方面,QLLM的研究涵盖了权重量化和激活量化,以及如何在LLMs上有效地应用这些方法。研究者们详细介绍了QLLM的基本原理,包括自适应通道重组、高效的基于梯度的误差校正,以及效率讨论。通过在LLaMA模型系列上的实验,QLLM证明了其有效性,并为未来的研究工作提供了方向。

目录
相关文章
|
6月前
|
机器学习/深度学习 编解码 定位技术
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
【论文速递】ECCV2022 - 密集高斯过程的小样本语义分割
|
6月前
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
【论文速递】ICLR2018 - 用于小样本语义分割的条件网络
80 0
|
6月前
|
机器学习/深度学习 数据处理 计算机视觉
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
【论文速递】ICCV2021 - 基于超相关压缩实现实时高精度的小样本语义分割
116 0
|
6月前
|
机器学习/深度学习 计算机视觉
CVPR 2024:字节提出新一代数据集COCONut,比COCO粒度分割更密集
【5月更文挑战第5天】在CVPR 2024会议上,字节跳动推出了COCONut数据集,作为COCO的升级版,用于更密集的图像分割任务。COCONut包含383K张图像和5.18M个分割标注,质量与规模均超越COCO,提供更准确、一致的标注,并有更多类别。其密集标注有助于理解图像细节,但大規模与高标注质量也可能带来训练资源和过拟合的挑战。[链接](https://arxiv.org/abs/2404.08639)
253 2
|
机器学习/深度学习 自然语言处理 大数据
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。
862 0
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
|
机器学习/深度学习 编解码 计算机视觉
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(二)
200 0
|
机器学习/深度学习 编解码 机器人
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
NeurIPS 2022 | 百度提出超快Transformer分割模型RTFormer,180FPS+81mIOU(一)
180 0
|
机器学习/深度学习 编解码 计算机视觉
建议背诵 | 字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!
建议背诵 | 字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!
69 0
|
编解码 人工智能 算法
AAAI 2023 Oral | 字节提出非对称图像重采样模型,JPEG、WebP上抗压缩性能领先SOTA
AAAI 2023 Oral | 字节提出非对称图像重采样模型,JPEG、WebP上抗压缩性能领先SOTA
122 0
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
最快ViT | FaceBook提出LeViT,0.077ms的单图处理速度却拥有ResNet50的精度(文末附论文与源码)(二)
112 0
下一篇
无影云桌面