[大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解

简介: [大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解

[大语言模型-算法优化] 微调技术-LoRA算法原理及优化应用详解

前言:

古人云: 得卧龙者,得天下

然在当今大语言模型流行的时代,同样有一句普世之言: 会微调技术者,得私域大模型部署之道!

在众多微调技术中,LoRA (LOW-RANK ADAPTATION, lora)低秩适应是最常用的一种技术手段,尤其是当你面临多私域数据应用大模型部署,并且计算资源及内存资源又非常有限之时。

1. 背景简介

随着GPT等大语言模型的陆续出现,人们逐步发现和接受了这样一个现实规律: 增加数据量和模型参数往往是提升深度网络模型性能最简单粗暴的方法。 目前主流的大模型参数量,通常都是千亿级别起步,并且还在不断持续地扩大。

大型语言模型(LLM)的微调是为了使模型更好地适应特定的任务或领域。微调通常在模型的预训练阶段之后进行,预训练阶段模型在大量无标签数据上学习通用的语言特征,而微调阶段则使用特定任务的数据对模型进行进一步训练,以提高其在该任务上的表现。

微调技术主要包括以下几种:

  1. 全参数微调:在这种方法中,模型的所有参数都会根据特定任务的数据进行更新。这种方法能够充分利用预训练模型的通用特征,但可能需要更多的计算资源。
  2. 参数高效微调(PEFT):这是一种旨在减少微调参数数量和计算复杂度的方法,以减轻大型预训练模型的训练负担。PEFT包括多种技术,如:
  • LoRA(Low-Rank Adaptation):通过在模型的关键层次中引入小型、低秩的矩阵来实现模型行为的微调,而无需对整个模型结构进行大幅度修改。这种方法在不显著增加额外计算负担的前提下,能够有效地微调模型,同时保留模型原有的性能水准 。
  • QLoRA(Quantized Low-Rank Adaptation):结合了LoRA方法与深度量化技术,通过量化预训练模型为4位,大幅减少了模型存储需求,同时保持了模型精度的最小损失 。
  • 适配器调整(Adapter Tuning):在模型的每个层或选定层之间插入小型神经网络模块,称为“适配器”。这些适配器是可训练的,而原始模型的参数则保持不变 。
  • 前缀调整(Prefix Tuning):通过在输入数据前增加前缀来给模型提供一些先验知识,以提升微调效果。
  • 提示调整(Prompt Tuning):通过设计特定的提示(prompt)来引导模型更好地完成特定任务。
  • P-Tuning及P-Tuning v2:这些方法通过调整模型的注意力机制来提高微调效率。

微调的效果取决于多种因素,包括微调策略的选择、数据集的质量、模型的规模等。例如,LoRA方法已经在多个业务场景中证明了其有效性,能够在保持模型性能的同时显著减少训练参数量和显存占用 。而QLoRA则通过量化技术进一步降低了显存占用,使得在资源有限的环境下部署和训练大型模型成为可能 。通过选择合适的微调技术,可以在有限的资源下实现高效的模型定制。

2. LoRA算法

在2021年,一篇由微软公司研究者撰写的论文《LoRA: Low-Rank Adaptation of Large Language Models 》首次提出LoRA算法,论文作者包括 Edward Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen。这篇论文旨在解决大型语言模型在特定任务或领域适应时面临的模型微调挑战。简要而言,LoRA(Low-Rank Adaptation)算法是一种用于大型语言模型微调的技术,它通过在模型的每个Transformer层中引入可训练的低秩矩阵来适应特定任务,而不是微调所有预训练的权重。这种方法显著减少了可训练参数的数量,从而降低了存储和计算成本,同时避免了在微调过程中可能发生的灾难性遗忘。

如上图所示,假设预训练的模型参数为W 0 ∈ R m × n W_{0} \in \mathcal{R}^{m \times n}W0Rm×n, 我们通常的LLM微调则是希望利用新的领域训练数据对模型进行更新,学习一个Δ W ∈ R m × n \Delta W \in \mathcal{R}^{m \times n}ΔWRm×n, 从而使得模型参数更新为W ′ W^{'}W, 即:

W ′ = W 0 + Δ W . W^{'} = W_{0} + \Delta W.W=W0+ΔW.

由于Δ W ∈ R m × n \Delta W \in \mathcal{R}^{m \times n}ΔWRm×n是一个维度与原始模型参数同纬度的巨大矩阵,在模型参数微调时会消耗大量的计算资源和内存资源。为了解决这个问题,微软的研究者提出,可以使用低秩自适应(Low-Rank Adaptation, LoRA)技术。具体而言,则是:

Δ W = A B \Delta W = ABΔW=AB

其中,矩阵A ∈ R m × r A \in \mathcal{R}^{m \times r}ARm×r, B ∈ R r × n B \in \mathcal{R}^{r \times n}BRr×n, 这里的关键点是r < < { m , n } r << \{m, n\}r<<{m,n}.

对于LoRA技术与普通的微调FT技术的区别,大致可以参考下面这个图:

在不同规模的语言模型中,LoRA算法的表现通常是有效的。例如,在GPT-3 175B模型上,LoRA能够减少可训练参数的数量高达10000倍,并且减少GPU内存需求约3倍。实验结果表明,即使训练参数大幅减少,LoRA在模型质量上也能与全参数微调相媲美或更好。这表明LoRA在保持模型性能的同时,显著提高了训练和部署的效率。

具体性能对比数据可以参考以下实验结果:

  • 在RoBERTa模型上,使用LoRA微调的参数数量为0.3M,与其他方法相比,在GLUE基准测试中取得了与全参数微调相当的性能。
  • 在DeBERTa XXL模型上,LoRA微调的参数数量为4.7M,在GLUE基准测试中也表现出色。
  • 在GPT-2模型上,LoRA在E2E NLG Challenge任务中的表现超过了一些具有相似或更少可训练参数的基线方法。
    这些结果表明,LoRA算法在不同规模的语言模型中都能有效工作,并且在减少资源消耗的同时保持或提高了模型的性能。这些发现对于需要在资源有限的环境中部署大型语言模型的应用场景尤其有价值。

实际在微调大型模型时,以下是一些技巧和考虑因素:

  • 选择合适的微调策略:全参数微调虽然可以获得最佳效果,但资源消耗大。LoRA作为一种参数高效的微调方法,可以在保持资源效率的同时,通过避免灾难性遗忘来提高微调质量。
  • 确定微调的层:可以选择只微调模型的特定层,例如注意力机制层,或者选择微调所有线性层,这可能会提高微调质量。
  • 配置LoRA适配器:在LoRA配置中,可以定义低秩适配器的参数,如秩(r)、目标模块(target_modules)、LoRA比例因子(lora_alpha)、dropout率等。这些参数的选择会对微调结果产生显著影响。
  • 数据准备:为了进行有监督的微调,需要将数据转换为适合的格式,即提示-响应对。
  • 训练参数:定义训练参数,如训练周期、批量大小和其他训练超参数。
  • 模型部署:在部署时,需要考虑是否合并适配器权重到预训练模型中,这可能会影响推理延迟。

3. QLoRA

论文: https://arxiv.org/pdf/2305.14314

QLoRA(Quantized Low-Rank Adaptation)是2024年提出的一种用于大型语言模型(LLMs)微调的技术,它通过量化和低秩矩阵分解来减少模型在微调过程中的内存占用和计算成本。在论文中,作者提出QLORA,一种高效的微调方法,能够在保持16位全精度微调任务性能的同时,显著降低内存使用量。通过在冻结的4位量化预训练语言模型中反向传播梯度到低秩适配器(LoRA),QLORA能够在单个48GB GPU上微调65B参数模型。最佳模型系列名为Guanaco,其在Vicuna基准测试上的表现超越了所有以前公开发布的模型,达到了ChatGPT性能的99.3%,同时仅需在单个GPU上微调24小时。QLORA引入了多项创新以节省内存:(a) 4位NormalFloat(NF4),一种新的数据类型,对于正态分布的权重在信息理论上是最优的;(b) 双重量化,通过量化量化常数来减少平均内存占用;© 页面优化器,使用NVIDIA统一内存来管理内存峰值。

算法原理

  1. 量化(Quantization):QLoRA通过量化技术将模型参数从浮点数转换为低精度的表示,如4-bit量化。这种方法减少了模型参数的内存占用,同时通过特定的量化策略(如NormalFloat量化)来保持模型性能。
  2. 低秩矩阵分解(Low-Rank Adaptation):QLoRA利用低秩矩阵分解的思想,将原始的高维权重矩阵分解为两个低秩矩阵的乘积,从而减少需要更新的参数数量。
  3. 分页优化器(Paged Optimizers):QLoRA使用分页优化器来管理内存使用,通过NVIDIA统一内存特性在CPU和GPU之间自动页面传输,以避免内存不足错误。

应用效果

  • QLoRA能够在单个GPU上进行大型模型的微调,显著降低了对硬件资源的需求。
  • 它能够在保持模型性能的同时,减少内存占用和计算成本,使得在资源有限的环境中也能进行大型模型的微调。
  • 实验表明,QLoRA优化后的模型在多个自然语言处理任务上取得了与全精度模型相媲美的性能。

使用技巧

  1. 选择合适的量化策略:QLoRA使用NormalFloat量化来确保量化过程在信息理论上是最优的,这有助于保持模型性能。
  2. 调整低秩适配器的参数:QLoRA通过调整低秩适配器的参数(如秩r和缩放系数alpha)来控制模型的微调程度,这些参数的选择对模型性能有重要影响。
  3. 利用分页优化器管理内存:通过使用分页优化器,QLoRA可以在内存紧张的情况下继续训练,这对于在内存较小的设备上微调大型模型尤为重要。
  4. 实验和调优:QLoRA的性能可能受到多种因素的影响,包括数据集的质量、模型的大小和结构等。通过实验和调优,可以找到最佳的微调配置。
  5. 硬件选择:虽然QLoRA可以在消费级GPU上运行,但更大的内存和更强大的计算能力可以进一步提高微调的效率和模型的性能。

QLoRA作为一种高效的大型语言模型微调方法,通过量化技术和低秩矩阵分解,为自然语言处理领域的研究者和开发者提供了一种新的工具和方法,有助于推动LLMs在实际应用中的更广泛应用和发展。

参考资料

[1] https://www.thepaper.cn/newsDetail_forward_25531528

[2] Hu, Edward J., et al. “Lora: Low-rank adaptation of large language models.” arXiv preprint arXiv:2106.09685 (2021).

[3] Dettmers, Tim, et al. “Qlora: Efficient finetuning of quantized llms.” Advances in Neural Information Processing Systems 36 (2024).


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
7天前
|
算法 容器
令牌桶算法原理及实现,图文详解
本文介绍令牌桶算法,一种常用的限流策略,通过恒定速率放入令牌,控制高并发场景下的流量,确保系统稳定运行。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
令牌桶算法原理及实现,图文详解
|
17天前
|
负载均衡 算法 应用服务中间件
5大负载均衡算法及原理,图解易懂!
本文详细介绍负载均衡的5大核心算法:轮询、加权轮询、随机、最少连接和源地址散列,帮助你深入理解分布式架构中的关键技术。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
5大负载均衡算法及原理,图解易懂!
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
10天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
12天前
|
机器学习/深度学习 JSON 算法
二叉树遍历算法的应用场景有哪些?
【10月更文挑战第29天】二叉树遍历算法作为一种基础而重要的算法,在许多领域都有着不可或缺的应用,它为解决各种复杂的问题提供了有效的手段和思路。随着计算机科学的不断发展,二叉树遍历算法也在不断地被优化和扩展,以适应新的应用场景和需求。
22 0
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。
|
21天前
|
人工智能 算法 数据安全/隐私保护
基于遗传优化的SVD水印嵌入提取算法matlab仿真
该算法基于遗传优化的SVD水印嵌入与提取技术,通过遗传算法优化水印嵌入参数,提高水印的鲁棒性和隐蔽性。在MATLAB2022a环境下测试,展示了优化前后的性能对比及不同干扰下的水印提取效果。核心程序实现了SVD分解、遗传算法流程及其参数优化,有效提升了水印技术的应用价值。
|
20天前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
21天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
23天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。