LLama Factory+ModelScope实战——使用 Web UI 进行监督微调

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: LLaMA Factory 是一个高效的大语言模型训练和推理框架,它通过提供一站式的 Web UI 界面和集成多种训练方法,简化了大模型的微调过程,并能够适配多种开源模型。

引言


大语言模型微调一直都是一个棘手的问题,不仅因为需要大量的计算资源,而且微调的方法也很多。在尝试每一种方法的过程中配置环境和第三方库也很麻烦。而 LLaMA Factory 是一个高效的大语言模型训练和推理的框架,不仅集成多种高效训练方法,而且能持续适配国内外各种开源大模型。该框架还提供了能够一站式实现大模型预训练、监督微调、评估、推理的 Web UI 界面,使用户能够直观地看到训练选项、模型数据集选项、训练进度等重要信息。


为方便国内用户使用,该框架支持了魔搭社区(ModelScope)的模型和数据集资源,训练前可自动下载并缓存资源。


而 Yi 系列大模型是李开复博士创办的“零一万物”公司研发的首款开源大模型。参数规模有 6B 和 34B。其中的 Yi-34B 不仅支持 200K tokens 的超长窗口,更是在众多性能评测榜单上取得领先成绩。


本次我们基于 LLaMA Factory 框架,在一张 V100 显卡上使用 ModelScope 上支持的在线数据集对 Yi-6B 模型进行监督微调,使其获得对话能力。



环境准备


环境配置与安装

本文主要演示的模型推理代码可在魔搭社区免费实例PAI-DSW的配置下运行(显存24G) :


点击模型右侧Notebook快速开发按钮,选择GPU环境

打开Terminal环境


LLaMA Factory框架目前托管在 github 上,所以,我们要先使用 git 来

安装 LLaMA Factory 开源框架:

git clone https://github.com/hiyouga/LLaMA-Factory.git


等待仓库下载完毕,进入仓库并安装所需依赖:

cd LLaMA-Factory
pip install -r requirements.txt


注意:截至文章编辑时(2024 年 1 月 22 日),该框架在使用最新版本的 torch 库时,会出现无法正常推理的情况。请根据您的硬件环境选择合适的 torch>=1.13.1,<=2.0.1 版本进行安装。


Web UI 的使用

服务的启动

首先我们要在命令行里先设置一个环境变量 USE_MODELSCOPE_HUB=1,框架程序在运行时会读取这个环境变量,当 USE_MODELSCOPE_HUB 的值为 1 时框架才会使用 ModelScope 在线资源。在 Windows 和 Linux 操作系统上,设置环境变量的命令是不同的,请二选其一:

export USE_MODELSCOPE_HUB=1  # Linux 上使用的命令
set USE_MODELSCOPE_HUB=1     # Windows 上使用的命令


接着使用以下命令启动 Web UI:

CUDA_VISIBLE_DEVICES=0 python src/train_web.py  # 指定一块 GPU 启动网页服务


LLaMA Factory 的 Web UI 目前只支持单卡训练/推理,当你的机器有多张显卡时请使用 CUDA_VISIBLE_DEVICES 指定一张显卡启动程序。


我们在浏览器地址栏中输入 http://localhost:7860 进入 Web 界面,接着可以在“语言/Language”选项中,将界面的语言修改为“中文/zh”,然后在模型名称中选择“Yi-6B”,在模型路径中选择“01ai/Yi-6B”。


监督微调

第二行中的微调方法,我们保持 “lora” 不变,适配器路径使用默认的空值。

“微调方法”有三个可选项:

  • full:全参数微调,对模型的所有参数进行训练,这种方法需要大量的计算资源和时间;
  • freeze:参数冻结,对模型大部分参数进行冻结操作,仅训练小部分参数,能够使用有限的资源对大模型进行微调;
  • LoRA:Low-Rank Adaptation,是一种参数高效性微调方法,不仅让微调的成本显著下降,还能获得和全参数微调类似的效果。

适配器指的是 lora 微调的输出结果,可以理解为将预训练模型的输出转换为目标形式的组件,需要搭配预训练模型一起使用。在模型的推理和合并阶段中,才需要指定“适配器路径”作为输入,而在微调过程中则不需要指定这个参数。


打开“高级设置”,本次演示中量化等级保持 none,提示模板使用 xverse,RoPE 插值方法和加速方式均为 none。


QLoRA是一种能够减少显存占用的大模型高效微调方法,当模型过大导致显存不够时可以考虑使用 4bit / 8bit QLoRA。


提示模板在微调时为大模型指示人类输入和机器输出的模板,除了 default 以外也可以根据仓库中Supported Models的说明选择合适的模板进行实验。


RoPE插值可以扩展 LLaMA 模型的上下文长度,如果使用了 linear 参数微调模型推理时也要设置为 linear,如果微调时使用 none,推理时可以选择 none 或 dynamic。


框架支持 FlashAttention-2(RTX4090、A100 或 H100 GPU)和 unsloth(LLaMA、Mistral 和 Yi 模型)的加速方式,均需要额外安装。


接下来我们来到训练参数设置面板:


训练阶段选择 Supervised Fine-Tuning(监督微调),数据路径保持 data 不变,数据集我们使用 ModelScope 社区提供的 belle_2m 数据集。其他参数的介绍如下:

  • 截断长度:一条数据分词后会成为一个 token 序列,当 token 序列的长度超过截断长度时会被分割成若干段输入进模型,这里保持1024不变;
  • 学习率:设置为 2e-4(因为之后我们会使用到数据打包技术,相应地学习率应该适当增大);
  • 训练轮数设置为 3.0,最大样本数为 50000;
  • 计算类型使用 fp16(V100 并不支持 bf16);
  • 批处理大小(Batch Size)设为 4(单卡3090);
  • 梯度累计(Gradient Accumulation):增大该参数可以减少显存的占用,本次实验设置为 1;
  • 学习率调节器:使用默认的 cosine,详见SchedulerType — transformers documentation (huggingface.co)
  • 最大梯度范数:用于梯度裁剪的范数,默认为 1.0
  • 验证集比例使用:0


打开其它参数设置面板,我们对其中的参数进行一些修改:


  • 本次实验日志间隔使用默认的 5,保存间隔使用 100;

注意,在模型的微调过程中,使用较小的保存间隔可能会在训练的过程中保存大量的检查点(checkpoint),占用大量的磁盘空间。在实际微调时可以根据训练的总步数适当调大保存间隔。

  • 预热步数:指的是学习率预热过程中加到正常学习率的步数,可选参数,本次实验设为 50;
  • NEFTune噪声参数:在训练过程中适量添加噪声,可选参数,本次实验设为 5;
  • 序列打包:将多组数据打包到一起进行训练,能够提高模型的上下文能力和训练速度。因为本次实验使用的数据集长度较小,所以可以使用序列打包技术提高模型在较长上下文的表现。这也决定了我们的学习率参数应该稍大些;
  • 缩放归一化层:可以提高训练过程中的稳定性,本次实验中不勾选。


下面打开 LoRA 参数设置面板:


  • LoRA 秩使用默认值 8;
  • LoRA 随机丢弃使用默认值 0.1;
  • LoRA 作用模块设为 all,表示指定全部模块;
  • 附加模块和新建适配器均不指定。


最后设置输出目录(输出结果为 LoRA 适配器),点击“预览命令”,可以看到实际的所有的命令行参数,点击“开始”,在下面可以看到打印出来的日志。等待模型和数据集加载完毕,就会显示训练过程的进度条,以及已用时间和剩余时间。等训练结束,面板会显示“训练完成”,没训练完也可以点击“中断”,程序会根据最后一个检查点(checkpoint)生成训练结果文件夹。


推理对话

当模型结束以后,同样可以使用 LLaMA Factory 的 Web UI 跟训练好的模型进行对话。

首先刷新适配器路径列表,在下拉列表中选择刚刚训练好的结果。然后在提示模板中选择刚刚微调时采用的 xverse,RoPE 插值使用 none。

  • 推理过程中使用的模板需要和微调时使用的一致;
  • 在微调过程中,RoPE 插值若使用的是 linear,则推理时只能使用 linear。若微调时使用 none,推理时可以选择 none 或 dynamic。


最后点击“加载模型”:


对话过程中在输入中写下内容,也可以添加系统提示词,点击“提交”表示调用一次大模型的回答。“清空历史”可以清除对话积累的上下文。右侧的最大生成长度、Top-p 和温度系数都是可以自己调整的。


对话结束后,如果想更换模型或适配器,需要点击“卸载模型”,卸载后才能重新加载模型。


模型合并

当我们使用 LoRA 训练结束以后,获得的实际上是一个适配器。单独的适配器需要和模型一起使用,我们也可以使用 LLaMA Factory 的模型合并功能将适配器和模型基座组装成一个完整的模型。


适配器路径、提示模板、RoPE 插值方法的选择和上述的模型推理和对话过程中选择的是一样的。


然后在下面点击 Export 面板,最大分块大小、导出量化等级、导出量化数据集均不需要修改,只需要指定导出目录。点击开始导出,等待导出完毕即可。



当我们使用导出后的模型进行推理时,需要将模型名称改为 Custom、模型路径设为导出后的模型的相对/绝对路径即可。



相关文章
|
3月前
|
移动开发 开发者 HTML5
构建响应式Web界面:Flexbox与Grid的实战应用
【10月更文挑战第22天】随着互联网的普及,用户对Web界面的要求越来越高,不仅需要美观,还要具备良好的响应性和兼容性。为了满足这些需求,Web开发者需要掌握一些高级的布局技术。Flexbox和Grid是现代Web布局的两大法宝,它们分别由CSS3和HTML5引入,能够帮助开发者构建出更加灵活和易于维护的响应式Web界面。本文将深入探讨Flexbox和Grid的实战应用,并通过具体实例来展示它们在构建响应式Web界面中的强大能力。
67 3
|
4月前
|
前端开发 JavaScript Python
Python Web应用中的WebSocket实战:前后端分离时代的实时数据交换
在前后端分离的Web应用开发模式中,如何实现前后端之间的实时数据交换成为了一个重要议题。传统的轮询或长轮询方式在实时性、资源消耗和服务器压力方面存在明显不足,而WebSocket技术的出现则为这一问题提供了优雅的解决方案。本文将通过实战案例,详细介绍如何在Python Web应用中运用WebSocket技术,实现前后端之间的实时数据交换。
147 0
|
2月前
|
弹性计算 Java 数据库
Web应用上云经典架构实战
本课程详细介绍了Web应用上云的经典架构实战,涵盖前期准备、配置ALB、创建服务器组和监听、验证ECS公网能力、环境配置(JDK、Maven、Node、Git)、下载并运行若依框架、操作第二台ECS以及验证高可用性。通过具体步骤和命令,帮助学员快速掌握云上部署的全流程。
|
3月前
|
设计模式 前端开发 数据库
Python Web开发:Django框架下的全栈开发实战
【10月更文挑战第27天】本文介绍了Django框架在Python Web开发中的应用,涵盖了Django与Flask等框架的比较、项目结构、模型、视图、模板和URL配置等内容,并展示了实际代码示例,帮助读者快速掌握Django全栈开发的核心技术。
266 45
|
2月前
|
安全 应用服务中间件 网络安全
实战经验分享:利用免费SSL证书构建安全可靠的Web应用
本文分享了利用免费SSL证书构建安全Web应用的实战经验,涵盖选择合适的证书颁发机构、申请与获取证书、配置Web服务器、优化安全性及实际案例。帮助开发者提升应用安全性,增强用户信任。
|
3月前
|
机器学习/深度学习 数据采集 Docker
Docker容器化实战:构建并部署一个简单的Web应用
Docker容器化实战:构建并部署一个简单的Web应用
|
3月前
|
前端开发 API 开发者
Python Web开发者必看!AJAX、Fetch API实战技巧,让前后端交互如丝般顺滑!
在Web开发中,前后端的高效交互是提升用户体验的关键。本文通过一个基于Flask框架的博客系统实战案例,详细介绍了如何使用AJAX和Fetch API实现不刷新页面查看评论的功能。从后端路由设置到前端请求处理,全面展示了这两种技术的应用技巧,帮助Python Web开发者提升项目质量和开发效率。
86 1
|
3月前
|
SQL 负载均衡 安全
安全至上:Web应用防火墙技术深度剖析与实战
【10月更文挑战第29天】在数字化时代,Web应用防火墙(WAF)成为保护Web应用免受攻击的关键技术。本文深入解析WAF的工作原理和核心组件,如Envoy和Coraza,并提供实战指南,涵盖动态加载规则、集成威胁情报、高可用性配置等内容,帮助开发者和安全专家构建更安全的Web环境。
111 1
|
3月前
|
安全 数据库 开发者
Python Web开发:Django框架下的全栈开发实战
【10月更文挑战第26天】本文详细介绍了如何在Django框架下进行全栈开发,包括环境安装与配置、创建项目和应用、定义模型类、运行数据库迁移、创建视图和URL映射、编写模板以及启动开发服务器等步骤,并通过示例代码展示了具体实现过程。
109 2
|
4月前
|
移动开发 前端开发 JavaScript
前端开发实战:利用Web Speech API之speechSynthesis实现文字转语音功能
前端开发实战:利用Web Speech API之speechSynthesis实现文字转语音功能
540 0

热门文章

最新文章