🔧 微调技术

简介: 微调是将预训练模型适配特定任务的关键技术,主要包括指令微调、对齐微调和高效参数微调。LoRA等方法通过低秩矩阵分解减少参数量,提升训练效率,而Prefix Tuning、Prompt Tuning则通过少量可训练参数实现高效迁移,在效果与成本间取得平衡。

🎯 微调概述

微调是将预训练模型适配到特定任务的关键技术,包括指令微调、对齐微调和高效参数微调。

🏗️ 微调类型

1️⃣ 指令微调 (SFT)

  • 原理:在指令-响应对上训练
  • 数据格式:{"instruction": "...", "output": "..."}
  • 效果:提升指令遵循能力

2️⃣ 对齐微调 (RLHF)

  • 流程
  1. 人类偏好数据收集
  2. 奖励模型训练
  3. PPO强化学习优化
  • 目标:使模型行为符合人类价值观

3️⃣ 高效参数微调

LoRA (Low-Rank Adaptation)

背景

矩阵中的最大的不相关的向量个数,就叫做。如果矩阵中数据比较相关,则为低秩矩阵。

  • 例如,一个 的矩阵,如果它的秩 r 远小于 m 和 n,那么它就是一个低秩矩阵,冗余信息很多
  • 反之,若矩阵的秩等于矩阵的行数 m,或者列数 n,则它是一个满秩矩阵
  • 大模型的参数矩阵中的秩往往较小,具有很强的冗余

LoRA 原理

  • 原理:如果一个矩阵P(假设维度为 )存在大量冗余信息,即低秩特性,可以不用完整的 尺寸来表示它,可利用因式分解这个想法,用两个较小的矩阵( A和B )的乘积 BA 来表示矩阵P,其中 A 维度 ,B 维度 ,则 ,其中 为秩,远小于 ,A 和 B 为低秩矩阵
  • 思想:将全参数微调理解为“冻住的预训练权重” + “微调过程中产生的权重更新量”,因此微调只学习“更新”的那部分参数量(与预训练权重维度相同)。同时借助矩阵分解的思想,将“更新”的大模型参数矩阵分解为两个低秩矩阵的乘积,从而减少参数量,提高训练速度
  • 公式 其中 为预训练权重,维度为 为输入, 为可训练参数,维度分别为 ( 为秩,远小于 ), 为微调过程中产生的权重更新量,即
  • 效果:参数更新量由 降低为 ,反向传播时,只有 A、B 获得梯度, 不变,因而大大减少计算量

LoRA的初始化

常见的初始化方法是:矩阵A 高斯初始化,矩阵 B 初始化为零矩阵,保证模型输出在第一步与预训练一致,避免任何初始扰动,保证不会在一开始就破坏预训练表示

  • 为什么A 高斯初始化,B 初始化为零矩阵?为什么不能都高斯初始化?或者都为0,或者B 高斯初始化,A 初始化为零矩阵?


具体可参考: LoRA微调中的矩阵初始化策略:A随机与B零初始化

  • A 随机与 B 零初始化: B在第一轮即可获得梯度,更新参数,A在第一轮无法获得梯度,不更新参数,但随着B的更新,A会逐渐获得梯度,开始更新
  • A 和 B 都高斯初始化: 模型输出在第一步与预训练不一致,引入噪声,干扰训练
  • A 和 B 都初始化为零: A 和 B 均无法获得梯度,无法更新,训练无法启动
  • B 随机与 A 零初始化: 理论上可能,但会导致训练效率显著下降甚至失败。B在第一轮无法获得梯度,无法更新参数,A 在第一轮的梯度不为零(取决于随机初始化的 B),可以更新,但 A 的更新需要与 B 的更新协同才能有效调整权重。由于 B 在初始阶段无法更新,A 的更新方向会受限于初始随机的 B,导致优化过程不稳定。

LoRA作用的位置

理论上LoRA的思想可以应用到任何权值矩阵上,例如在自注意机制中有四个权值矩阵  wq,wk ,wv ,wo ,另外在Transformer的全连接中也有两个权值矩阵w_up 和 w_down。关于LoRA在Transformer的作用位置,LoRA论文在自注意力层做了一组对照实验,证明如果只将LoRA作用到某个单一矩阵上,效果不佳,如果将LoRA作用到两个矩阵上,放在 wq 和 wv 效果最好。建议在所有的权值矩阵都加上LoRA,有利于模型捕捉到所有矩阵的关键信息


LoRA中参数

  • :秩,表示低秩矩阵的维度,一般取1、2、4、8、16、32,比较常见的取值是8,值越高意味着矩阵越大
  • lora_alpha:缩放因子,用于调整低秩矩阵的影响力。可以理解为对BA的更新幅度进行放大或缩小
  • lora_target:指示需要应用低秩适应(LoRA)模块的特定网络层或模块

LoRA的变体

  • LoRA+(LoRA Plus): LoRA 的增强版本,主要通过为矩阵 A 和 B 引入不同的学习率改进Lora,其中矩阵 B 的学习率设置为矩阵 A 的 16 倍。这种策略可以显著提高训练效率,同时提升模型精度(约 2%),并将训练时间缩短 2 倍。前提:原始 LoRA 中,矩阵 A 和 B 使用相同的学习率进行更新。该方法认为当模型的宽度(即嵌入维度)较大时,这种单一学习率的设置会导致微调效果不佳。)
  • QLoRA(Quantized LoRA): QLoRA 是 LoRA 的量化版本,主要通过对低秩矩阵进行量化,从而显著降低存储和计算成本。这使得模型在显存受限的环境中运行更加高效。
  • AdaLoRA(Adaptive LoRA):AdaLoRA 是 LoRA 的自适应版本,它支持动态调整秩,可根据任务和数据的复杂度动态调整低秩矩阵的秩,避免了固定秩带来的限制。


Prefix Tuning

  • 原理:在输入前添加可训练前缀
  • 特点:仅训练前缀参数

Prompt Tuning

  • 原理:学习软提示词嵌入
  • 特点:简单高效

📊 微调方法对比

方法

参数量

训练速度

效果

部署

全参数

100%

最好

困难

LoRA

1%

容易

Prefix

0.1%

最快

容易

目录
相关文章
|
2月前
|
Cloud Native Ubuntu Linux
云原生
Docker是一个基于Go语言的开源容器化平台,实现“一次镜像,处处运行”。它通过容器技术将应用及其依赖打包,实现高效、轻量的部署与隔离,相比传统虚拟机启动更快、资源占用更少。
167 1
云原生
|
2月前
|
存储 监控 安全
📤 史上最全阿里云OSS图床搭建指南:告别本地存储,加速网站访问
阿里云OSS图床助力网站性能飞跃:图片加载从4.2秒缩至1.1秒,月流量成本降35%。结合CDN加速与智能优化,实现高速、安全、低成本的图片存储与分发,提升用户体验,释放创作潜能。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型分词器详解
分词器是将文本转为模型可处理数字序列的关键组件。本文详解BPE、WordPiece、SentencePiece三大主流算法原理与优劣,对比其在多语言支持、分词粒度等方面的差异,并提供中英文实战代码示例,助你掌握词汇表构建流程、特殊标记处理及常见面试问题应对策略。
228 1
|
2月前
|
机器学习/深度学习 人工智能
AI大模型位置编码详解
位置编码为Transformer提供序列顺序信息,弥补注意力机制无位置感知的缺陷。主要分为绝对编码(如可学习、Sinusoidal)和相对编码(如RoPE、ALiBi)。RoPE通过旋转矩阵支持长序列,ALiBi以线性偏置增强外推能力。不同方法在长度外推、效率等方面各有优劣,广泛应用于LLaMA、BLOOM等大模型中。
181 0
AI大模型位置编码详解
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型Transformer基础结构
Transformer是2017年提出的基于注意力机制的神经网络,摒弃了传统RNN结构,采用自注意力与多头注意力机制,实现并行化处理和长距离依赖建模。其核心由编码器-解码器架构、位置编码、残差连接和层归一化组成,广泛应用于NLP任务,成为BERT、GPT等模型的基础。
230 0
|
2月前
|
自然语言处理
模型架构篇🏗️ 主流大模型结构
本文系统梳理主流大模型架构:Encoder-Decoder、Decoder-Only、Encoder-Only及Prefix-Decoder,解析GPT、LLaMA、BERT等代表模型特点与应用,并对比参数、上下文长度与优势场景,涵盖中英文大模型发展及面试核心要点。
238 0
|
5月前
|
监控 安全 Devops
DevOps 流水线的网络安全盲区与防御策略
在软件研发中,DevOps流水线加速了开发与交付,但也带来严重安全风险。自动化节点和第三方集成成为攻击入口,凭证泄露、供应链渗透、配置错误和依赖混乱等问题频发。企业需构建全流程安全体系,嵌入自动化安全策略,强化访问控制与监控,提升全员安全意识,实现效率与安全的协同发展。
510 1
|
5月前
|
数据采集 缓存 监控
爬虫代理IP突然失效的应急处理指南
在爬虫开发中,代理IP是绕过反爬机制的重要工具,但其失效可能导致采集中断甚至IP封禁。本文结合实际场景,总结了代理IP失效时的应急处理方案,包括快速切换备用代理池、调整请求策略、启用本地缓存等,并提出了长期稳定策略,如IP质量监控、选择优质服务商、多协议支持与混合IP使用,帮助开发者构建高效稳定的爬虫系统。
185 0
|
安全 网络安全
MarkdownPad 文件访问权限受限导致软件打开后不久闪退解决方法
【8月更文挑战第31天】如果MarkdownPad因权限受限而闪退,可尝试:1)以管理员身份运行;2)检查并修改文件权限,确保有读写权限;3)关闭可能干扰的杀毒软件或防火墙;4)卸载后重新安装,注意选择合适路径并以管理员身份安装。
375 6
|
11月前
舆情风险防控措施分享
舆情风险防控措施分享