在自然语言处理(NLP)领域,大型语言模型(LLMs)如GPT-4和LLaMA系列已经取得了显著的成就,它们在各种任务中表现出色,从代码和数学推理到分类和问答。然而,这些模型的庞大参数量和对计算资源的高需求,使得它们在实际应用中的部署面临巨大挑战。为了解决这一问题,研究者们在ICLR 2024会议上提出了一种名为QLLM的新型低比特量化方法,旨在实现对LLMs的精确且高效的量化。
LLMs的高计算和内存需求主要源于其庞大的参数数量。例如,GPT-3模型拥有1750亿个参数,需要至少325GB的半精度(FP16)存储空间。这不仅限制了模型的广泛应用,也对硬件资源提出了更高的要求。为了降低这些需求,研究者们提出了量化感知训练(QAT)和后训练量化(PTQ)两种策略。然而,由于LLMs的参数量巨大,QAT的培训成本过高,使得PTQ成为了更实际的选择。但在极低比特宽度的量化中,如4位权重和/或激活量化,现有的PTQ方法会导致显著的性能下降。
为了克服这些挑战,QLLM方法通过自适应通道重组技术,有效地重新分配了异常值的幅度,减轻了它们对量化范围的影响。这一过程包括通道拆解和通道组装两个步骤。首先,将异常值通道分解为多个子通道,以实现激活幅度的更均匀分布。然后,通过合并相似的通道,保持了原始通道数量,提高了效率。此外,研究者们还设计了一种自适应策略,自动确定通道拆解的最佳子通道数量。
为了进一步补偿量化引起的性能损失,QLLM引入了一种高效的调整方法,该方法仅学习少量的低秩权重,同时冻结预训练的量化模型。这种方法显著减少了训练时间和GPU内存需求,同时在推理过程中不增加任何额外的开销。在LLaMA-1和LLaMA-2模型上的实验结果表明,QLLM能够在10小时内量化4位的LLaMA-2-70B模型,并在五个零样本任务上的平均准确率上比之前的最佳方法提高了7.89%。
QLLM的主要贡献在于提出了一种简单而有效的通道重组方法,通过拆解和合并通道,使激活更易于量化,同时保持了原始通道数量的效率。此外,通过学习低秩参数来对抗量化误差,显著提高了量化模型的性能。这些实验结果不仅展示了QLLM的性能和训练效率,也为未来在LLMs上应用量化方法提供了新的思路。
在网络量化方面,QLLM的研究涵盖了权重量化和激活量化,以及如何在LLMs上有效地应用这些方法。研究者们详细介绍了QLLM的基本原理,包括自适应通道重组、高效的基于梯度的误差校正,以及效率讨论。通过在LLaMA模型系列上的实验,QLLM证明了其有效性,并为未来的研究工作提供了方向。