参考链接
https://vwpecqie443.feishu.cn/wiki/AdRfwyZfWiJPJJkwnhucGavSnBe
https://aicarrier.feishu.cn/wiki/I5ywwN1ZZi5m1pk5fhKcGL0Dn0j
https://aicarrier.feishu.cn/wiki/HfQuwYa4Xi4WJVkuNF3cygqnnch
https://swift.readthedocs.io/zh-cn/latest/Instruction/%E8%AF%84%E6%B5%8B.html
算力资源
这里我用的是书生的训练营给的算力资源,可以报名申请闯关提高算力,不过第五期的训练营从5月27日就已经开始了
环境
CUDA:12.2
显存:40GB(50% A100)
Python 包管理:conda
LLM:internlm3-8b-instruct
微调框架:ms-swift
训练方式:(预训练 + SFT)Lora
目标
对 InternLM 系列模型 进行微调,使其能够完成论文分类任务,然后进行打榜
https://aicarrier.feishu.cn/wiki/I5ywwN1ZZi5m1pk5fhKcGL0Dn0j
安装 ms-swift
1)创建 conda 环境
# 创建 conda 虚拟环境,环境名称为 swift,python 的版本为 3.10 conda create -n swift python=3.10
2)切换 环境
conda activate swift
3)安装 ms-swift
# ms-swift 全能力安装 pip install 'ms-swift[all]' -U
训练集
训练集:https://www.modelscope.cn/datasets/JimmyMa99/smartflow-arxiv-dataset/files
下载
1)安装 ModelScope
pip install modelscope
2)创建文件夹
mkdir -p /root/datasets/train
2)下载训练集
# 完整下载整个训练集,并下载到 /root/datasets/train 目录下 modelscope download --dataset JimmyMa99/smartflow-arxiv-dataset --local_dir /root/datasets/train
预训练
目标:让模型学习识别论文的基本结构、元数据和内容特征
1)新建训练脚本
# 创建 config 文件夹 mkdir config # 脚本 vim config/internlm3-8b-pretrain.sh
internlm3-8b-instruct.sh:
可以自己定义一些参数,从第5行到第13行
swift 一些参数说明可参考:https://zhuanlan.zhihu.com/p/1920127302924235042
#!/bin/bash ############ 可自定义 # 指定基础模型,可以是模型路径 model="Shanghai_AI_Laboratory/internlm3-8b-instruct" # 训练集路径(预训练 训练集) data_path="/root/datasets/train/swift_formatted_pretrain_data.jsonl" # 模型输出路径 output_dir="/root/swift_output/internlm3-8b-lora" # 模型作者 model_author="fei" # 训练后的模型名称 model_name="InternLM3-8B-Lora" # 创建日志目录 LOG_DIR="logs" mkdir -p $LOG_DIR # 获取当前时间戳,用于生成唯一的日志文件名 TIMESTAMP=$(date +"%Y%m%d_%H%M%S") LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log" # 设置CUDA环境变量 export NPROC_PER_NODE=1 export OMP_NUM_THREADS=1 export CUDA_VISIBLE_DEVICES=0 export MASTER_PORT=$((10000 + RANDOM % 50000)) # 使用nohup命令在后台运行训练任务,即使终端关闭也能继续运行 nohup swift sft \ --model $model \ --train_type lora \ --dataset $data_path \ --torch_dtype bfloat16 \ --num_train_epochs 2 \ --per_device_train_batch_size 4 \ --learning_rate 5e-5 \ --warmup_ratio 0.1 \ --split_dataset_ratio 0 \ --lora_rank 8 \ --lora_alpha 32 \ --use_chat_template false \ --target_modules all-linear \ --gradient_accumulation_steps 2 \ --save_steps 2000 \ --save_total_limit 5 \ --gradient_checkpointing_kwargs '{"use_reentrant": false}' \ --logging_steps 5 \ --max_length 2048 \ --output_dir $output_dir \ --dataloader_num_workers 256 \ --model_author $model_author \ --model_name $model_name \ > "$LOG_FILE" 2>&1 & # 打印进程ID和日志文件位置,便于用户跟踪 echo "Training started with PID $!" echo "Log file: $LOG_FILE" # 提示用户如何实时查看日志 echo "To view logs in real-time, use:" echo "tail -f $LOG_FILE"
2)执行预训练脚本
bash config/internlm3-8b-pretrain.sh
3)查看日志
# 要复制脚本执行后的,最后一条命令 tail -f logs/internlm3-8b_lora_sft_20250622_140355.log
4)训练结束
合并权重
将模型权重合并
# 复制日志中 last_model_checkpoint 对应的路径 swift export --adapters /root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144 --merge_lora true
SFT
目标:让模型学会准确分类,输出简洁答案
1)新建训练脚本
# 脚本 vim config/internlm3-8b-sft.sh
internlm3-8b-sft.sh:
可以自己定义一些参数,从第5行到第15行
swift 一些参数说明可参考:https://zhuanlan.zhihu.com/p/1920127302924235042
#!/bin/bash ############ 可自定义 # 指定基础模型路径,使用上面预训练合并后的路径 model="/root/swift_output/internlm3-8b-lora/v2-20250622-142204/checkpoint-144-merged" # 训练集路径(sft 训练集) data_path="/root/datasets/train/swift_formatted_sft_train_data.jsonl" # 模型输出路径 output_dir="/root/swift_output/internlm3-8b-lora" # 模型作者 model_author="fei" # 训练后的模型名称 model_name="InternLM3-8B-Lora" # swanlab的project名称 swanlab_project="InternLM3-8B-paper-classify-Lora" # 创建日志目录 LOG_DIR="logs" # 创建日志目录,-p参数确保即使目录已存在也不会报错 mkdir -p $LOG_DIR # 获取当前时间戳 TIMESTAMP=$(date +"%Y%m%d_%H%M%S") # 获取当前时间并格式化为年月日_时分秒格式 LOG_FILE="$LOG_DIR/internlm3-8b_lora_sft_${TIMESTAMP}.log" # 组合日志文件路径,使用时间戳确保文件名唯一 # 设置CUDA设备 export NPROC_PER_NODE=1 # 设置每个节点的进程数为1 export OMP_NUM_THREADS=1 # 设置OpenMP线程数为1,限制并行线程数 export CUDA_VISIBLE_DEVICES=0 # 指定使用的GPU设备为0号设备 # 使用nohup命令在后台运行swift sft命令,即使终端关闭也能继续运行 nohup swift sft \ --model $model \ --train_type lora \ --dataset $data_path \ --torch_dtype bfloat16 \ --num_train_epochs 2 \ --per_device_train_batch_size 8 \ --learning_rate 1e-4 \ --warmup_ratio 0.1 \ --report_to swanlab \ --swanlab_project $swanlab_project \ --split_dataset_ratio 0 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 2 \ --save_steps 2000 \ --save_total_limit 5 \ --gradient_checkpointing_kwargs '{"use_reentrant": false}' \ --logging_steps 5 \ --max_length 2048 \ --output_dir $output_dir \ --dataloader_num_workers 256 \ --model_author $model_author \ --model_name $model_name \ > "$LOG_FILE" 2>&1 & # 打印进程ID和日志文件位置 echo "Training started with PID $!" # 显示训练进程的PID($!代表最近一个后台进程的PID) echo "Log file: $LOG_FILE" # 显示日志文件的路径 # 显示查看日志的命令 echo "To view logs in real-time, use:" echo "tail -f $LOG_FILE"
2)安装 swanlab
SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具,提供了一个跟踪、记录、比较、和协作实验的平台。
pip install swanlab
3)登录 swanlab
3.1)前往 swanlab 注册
3.2)获取 API Key
3.2)服务器登录
swanlab login # 然后粘贴 API key 回车
4)执行 sft 训练脚本
bash config/internlm3-8b-sft.sh
5)查看日志
# 要复制脚本执行后的,最后一条命令 tail -f logs/internlm3-8b_lora_sft_20250622_152058.log
6)训练结束
7)通过 swanlab,了解到相关的数据【可选】
合并权重
# 复制日志中 last_model_checkpoint 对应的路径 swift export --adapters /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62 --merge_lora true
评测
准备
将评测数据集改名
# 添加 _val,是为了能让 swift 知道这个是评测数据 mv eval_oc_data.csv eval_oc_data_val.csv
注意:我下面不是用的这个评测集进行评测的,我把他移动到 /root/datasets/eval,并改名为 newformat_sft_test_data_val.csv
微调前
参考链接:https://swift.readthedocs.io/zh-cn/latest/Instruction/%E8%AF%84%E6%B5%8B.html
--eval_dataset general_mcq:通用选择题数据集
"local_path": "/root/datasets/eval":这个是数据集所在的路径
"subset_list": ["newformat_sft_test_data"]:这个数据集名称的前缀,我这里的文件是 newformat_sft_test_data_val.csv
官方文档说明:
评测命令:
CUDA_VISIBLE_DEVICES=0 \ swift eval \ --model Shanghai_AI_Laboratory/internlm3-8b-instruct \ --eval_backend Native \ --infer_backend pt \ --eval_dataset general_mcq \ --dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'
微调后
/root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged:是 sft 合并权重后的路径
评测命令:
CUDA_VISIBLE_DEVICES=0 \ swift eval \ --model /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged \ --eval_backend Native \ --infer_backend pt \ --eval_dataset general_mcq \ --dataset_args '{"general_mcq": {"local_path": "/root/datasets/eval", "subset_list": ["newformat_sft_test_data"]}}'
上传到 魔搭社区(可跳)
网址:https://modelscope.cn/models/create
1)创建模型
2)上传模型
token获取:https://modelscope.cn/my/myaccesstoken
# feilieren/InternLM3-8B-paper-classify-Lora:为自己在魔搭社区创建的模型(个人名称/模型名称) # /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged:合并权重后的模型参数路径 # YOUR-MODELSCOPE-TOKEN:要替换成自己的 魔搭社区token modelscope upload feilieren/InternLM3-8B-paper-classify-Lora /root/swift_output/internlm3-8b-lora/v5-20250622-155801/checkpoint-62-merged --token YOUR-MODELSCOPE-TOKEN