ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM

简介: 【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM

ada.jpg
在自然语言处理(NLP)领域,大型语言模型(LLMs)如GPT-4和LLaMA系列已经取得了显著的成就,它们在各种任务中表现出色,从代码和数学推理到分类和问答。然而,这些模型的庞大参数量和对计算资源的高需求,使得它们在实际应用中的部署面临巨大挑战。为了解决这一问题,研究者们在ICLR 2024会议上提出了一种名为QLLM的新型低比特量化方法,旨在实现对LLMs的精确且高效的量化。

LLMs的高计算和内存需求主要源于其庞大的参数数量。例如,GPT-3模型拥有1750亿个参数,需要至少325GB的半精度(FP16)存储空间。这不仅限制了模型的广泛应用,也对硬件资源提出了更高的要求。为了降低这些需求,研究者们提出了量化感知训练(QAT)和后训练量化(PTQ)两种策略。然而,由于LLMs的参数量巨大,QAT的培训成本过高,使得PTQ成为了更实际的选择。但在极低比特宽度的量化中,如4位权重和/或激活量化,现有的PTQ方法会导致显著的性能下降。

为了克服这些挑战,QLLM方法通过自适应通道重组技术,有效地重新分配了异常值的幅度,减轻了它们对量化范围的影响。这一过程包括通道拆解和通道组装两个步骤。首先,将异常值通道分解为多个子通道,以实现激活幅度的更均匀分布。然后,通过合并相似的通道,保持了原始通道数量,提高了效率。此外,研究者们还设计了一种自适应策略,自动确定通道拆解的最佳子通道数量。

为了进一步补偿量化引起的性能损失,QLLM引入了一种高效的调整方法,该方法仅学习少量的低秩权重,同时冻结预训练的量化模型。这种方法显著减少了训练时间和GPU内存需求,同时在推理过程中不增加任何额外的开销。在LLaMA-1和LLaMA-2模型上的实验结果表明,QLLM能够在10小时内量化4位的LLaMA-2-70B模型,并在五个零样本任务上的平均准确率上比之前的最佳方法提高了7.89%。

QLLM的主要贡献在于提出了一种简单而有效的通道重组方法,通过拆解和合并通道,使激活更易于量化,同时保持了原始通道数量的效率。此外,通过学习低秩参数来对抗量化误差,显著提高了量化模型的性能。这些实验结果不仅展示了QLLM的性能和训练效率,也为未来在LLMs上应用量化方法提供了新的思路。

在网络量化方面,QLLM的研究涵盖了权重量化和激活量化,以及如何在LLMs上有效地应用这些方法。研究者们详细介绍了QLLM的基本原理,包括自适应通道重组、高效的基于梯度的误差校正,以及效率讨论。通过在LLaMA模型系列上的实验,QLLM证明了其有效性,并为未来的研究工作提供了方向。

目录
相关文章
设置VSCode代码编辑器右侧的Minimap代码缩略图滚动条切换显示、隐藏的快捷键Alt+M
设置VSCode代码编辑器右侧的Minimap代码缩略图滚动条切换显示、隐藏的快捷键Alt+M
|
小程序 Linux 区块链
Python PyInstaller 打包成 Win、Mac 应用程序(app / exe)
Python PyInstaller 打包成 Win、Mac 应用程序(app / exe)
6853 0
|
安全 网络安全 数据安全/隐私保护
SSL/TLS证书**是一种用于加密网络通信的数字证书
SSL/TLS证书**是一种用于加密网络通信的数字证书
661 6
|
测试技术
通义千问团队开源全新的过程奖励模型PRM!
近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。
1273 14
|
7月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
机器学习/深度学习 并行计算 PyTorch
【已解决】RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronous
【已解决】RuntimeError: CUDA error: device-side assert triggeredCUDA kernel errors might be asynchronous
11401 2
|
机器学习/深度学习 人工智能
Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式
Qwen2VL-Flux 是一个开源的多模态图像生成模型,结合了 Qwen2VL 的视觉语言理解和 FLUX 框架,能够基于文本提示和图像参考生成高质量的图像。该模型支持多种生成模式,包括变体生成、图像到图像转换、智能修复及 ControlNet 引导生成,具备深度估计和线条检测功能,提供灵活的注意力机制和高分辨率输出,是一站式的图像生成解决方案。
1615 4
Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式
|
存储 人工智能 缓存
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
【6月更文挑战第26天】无问芯穹Qllm-Eval评估了11个大模型(如OPT、LLaMA2)在多种参数配置和任务下的量化效果,探索权重量化、激活量化等方法对性能、速度和内存的影响。研究发现,W4、W4A8量化通常保持在2%的性能损失范围内,但最佳策略取决于模型大小、任务类型及硬件,提示了选择压缩方案时需灵活适应。[[arxiv.org/pdf/2402.18158.pdf](https://arxiv.org/pdf/2402.18158.pdf)]
559 6
|
运维 Ubuntu Shell
掌握Docker容器的创建:从镜像到实例
【8月更文挑战第27天】
2948 4
|
自然语言处理 数据可视化 知识图谱
【大模型】如何提高LLM决策的可解释性和可解释性?
【5月更文挑战第6天】【大模型】如何提高LLM决策的可解释性和可解释性?