LoRA:大模型的低秩自适应微调模型-阿里云开发者社区

LoRA:大模型的低秩自适应微调模型

2023-05-18 514

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，5000CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 对于大型模型来说，重新训练所有模型参数的全微调变得不可行。比如GPT-3 175B，模型包含175B个参数吗，无论是微调训练和模型部署，都是不可能的事。所以Microsoft 提出了低秩自适应(Low-Rank Adaptation, LoRA)，它冻结了预先训练好的模型权重，并将可训练的秩的分解矩阵注入到Transformer体系结构的每一层，从而大大减少了下游任务的可训练参数数量。

LoRA

对于预训练的权重矩阵W0，可以让其更新受到用低秩分解表示后者的约束:

在训练过程中，W0被冻结，不接受梯度更新，而A和B包含可训练参数。当h=W0x时，修正后的正向传播变为:

对A使用随机高斯初始化，对B使用零初始化，因此ΔW=BA在训练开始时为零（这点需要注意）。

这种方法的一个优点是，当部署到生产环境中时，只需要计算和存储W=W0+BA，并像往常一样执行推理。与其他方法相比，没有额外的延迟，因为不需要附加更多的层。

在Transformer体系结构中，自关注模块中有四个权重矩阵(Wq、Wk、Wv、Wo)， MLP模块中有两个权重矩阵。LoRA只对下游任务调整关注权重，并冻结MLP模块。所以对于大型Transformer，使用LoRA可减少高达2/3的VRAM使用量。比如在GPT-3 175B上，使用LoRA可以将训练期间的VRAM消耗从1.2TB减少到350GB。