开发者社区 > 通义大模型 > 正文

请教,在对Qwen1.5-14B大模型做微调的时候,遇到了奇怪的损失震荡,始终无法解决

如下是损失图片,验证集损失和训练参数:
279376996446621162.png
234250793505821488.png
参数:
model_path=/opt/workspace-cyx/model_test/Qwen1.5-14B
train_dataset_dir=alpaca_gpt4_data_en,alpaca_gpt4_data_zh,oaast_sft_zh,oaast_sft

per_device_train_batch_size=4
gradient_accumulation_steps=2
output_dir=/opt/workspace-cyx/model_test/output_dir
accelerate launch --config_file accelerate_config.yaml src/train_bash.py \
--max_samples 1000000 \
--stage sft \
--do_train \
--model_name_or_path ${model_path} \
--dataset ${train_dataset_dir} \
--template qwen \
--finetuning_type lora \
--lora_target q_proj,v_proj \
--output_dir ${output_dir} \
--per_device_train_batch_size ${per_device_train_batch_size} \
--gradient_accumulation_steps ${gradient_accumulation_steps} \
--lr_scheduler_type cosine \
--logging_steps 5 \
--save_steps 2000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss \
--fp16
--do_eval
--save_steps 100 \
--eval_steps 100 \
--val_size 0.01 \

--evaluation_strategy steps \

Qwen和Qwen1.5的7B和14B都有微调,使用的是llama_factory自带的alpaca_gpt4_data_en,alpaca_gpt4_data_zh,oaast_sft_zh,oaast_sft这四个数据集。
训练历程:
1.我初步想的是不是参模型不适用,但是试了好几个千问的模型,都有不同程度的震荡
2.然后开始修改参数,但是修改batch-size,lora_rank等参数,结果还是相差无几
3.数据集是官方提供的,应该是没有问题,总的指令有几十W条

现在的想法是:
1.这个模型到底是不是有没有收敛,是不是模型训练没有问题,只是Qwen1.5能力很强,对于这些数据集接收能力很强,正常震荡【因为验证集没啥问题】
2.参数/数据集存在问题,但是调过很多次了还是没能解决
不知道大家在微调有没有遇到此类问题,是如何解决的,还希望有大佬为我解惑!

展开
收起
pzdgpwoifyin4 2024-04-19 10:00:21 181 0
0 条回答
写回答
取消 提交回答
问答分类:
问答地址:

通义千问大模型家族全面升级更大参数规模模型首次面世,全新通义千问2.0版本欢迎体验。https://tongyi.aliyun.com/

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载