随着人工智能技术的飞速发展,大型语言模型(LLMs)在众多领域的应用日益广泛,从文本生成到复杂代码编写,再到类似人类的对话交流,LLMs都展现出了卓越的能力。然而,这些模型在大规模训练时所面临的巨大内存消耗问题,成为了制约其进一步发展的主要障碍。为了解决这一问题,学术界和工业界都在不断探索更为高效的微调技术。
在此背景下,由伊利诺伊大学香槟分校(University of Illinois Urbana-Champaign)联合LMFlow团队提出了一种名为Layerwise Importance Sampled AdamW(LISA)的新型微调方法。这种方法在保持内存消耗与LoRA(Low-Rank Adaptation)相当的同时,实现了比LoRA更快的训练速度和更高的性能,甚至在某些情况下,其性能超过了全参数调优(Full Parameter Training)。
LISA的核心思想是在微调过程中,根据每一层的重要性进行采样,随机冻结大部分中间层,从而减少训练过程中的内存占用。这一策略的灵感来源于LoRA在不同层的权重规范分布中观察到的不寻常的偏斜现象。LoRA在微调任务中的性能虽然尚未达到普遍超越全参数调优的水平,但其在减少可训练参数数量方面的优势是显而易见的。LISA正是基于这一观察,通过重要性采样的方式,对不同层进行差异化处理,从而在保持LoRA优点的基础上,进一步提升了微调的效果。
实验结果表明,LISA在GPU内存消耗相似或更低的情况下,其在下游微调任务中的性能超过了LoRA和全参数调优。特别是在大型模型LLaMA-2-70B上,LISA在多个领域的表现均与LoRA相当,甚至更优。这一发现证明了LISA作为一种有前景的LoRA替代方案,具有巨大的潜力。
LISA方法的提出,对于推动大型语言模型的发展具有重要意义。首先,它提供了一种在资源受限的情况下进行高效微调的新途径,使得大型模型的训练变得更加可行。其次,LISA的内存效率优势,使得在单机上进行高质量微调成为可能,这对于资源有限的研究团队和企业来说是一个福音。最后,LISA在多个任务和不同规模的模型上都展现出了良好的性能,显示了其广泛的适用性和强大的泛化能力。
然而,LISA方法也存在一些局限性。最主要的问题是,与LoRA一样,LISA在优化过程中仍然需要将模型完整地加载到内存中,这在处理极其庞大的模型时可能会导致内存消耗问题。此外,LISA的性能在一定程度上依赖于随机层的选择,这意味着其稳定性和可靠性可能会受到随机性的影响。尽管如此,LISA的提出仍然是大型语言模型微调领域的一个重要进步,它的出现为未来的研究和应用提供了新的思路和工具。