请教，在对Qwen1.5-14B大模型做微调的时候，遇到了奇怪的损失震荡，始终无法解决

如下是损失图片，验证集损失和训练参数：

参数：
model_path=/opt/workspace-cyx/model_test/Qwen1.5-14B
train_dataset_dir=alpaca_gpt4_data_en,alpaca_gpt4_data_zh,oaast_sft_zh,oaast_sft

per_device_train_batch_size=4
gradient_accumulation_steps=2
output_dir=/opt/workspace-cyx/model_test/output_dir
accelerate launch --config_file accelerate_config.yaml src/train_bash.py \
--max_samples 1000000 \
--stage sft \
--do_train \
--model_name_or_path ${model_path} \
--dataset ${train_dataset_dir} \
--template qwen \
--finetuning_type lora \
--lora_target q_proj,v_proj \
--output_dir ${output_dir} \
--per_device_train_batch_size ${per_device_train_batch_size} \
--gradient_accumulation_steps ${gradient_accumulation_steps} \
--lr_scheduler_type cosine \
--logging_steps 5 \
--save_steps 2000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss \
--fp16
--do_eval
--save_steps 100 \
--eval_steps 100 \
--val_size 0.01 \

--evaluation_strategy steps \

Qwen和Qwen1.5的7B和14B都有微调，使用的是llama_factory自带的alpaca_gpt4_data_en,alpaca_gpt4_data_zh,oaast_sft_zh,oaast_sft这四个数据集。
训练历程：
1.我初步想的是不是参模型不适用，但是试了好几个千问的模型，都有不同程度的震荡
2.然后开始修改参数，但是修改batch-size，lora_rank等参数，结果还是相差无几
3.数据集是官方提供的，应该是没有问题，总的指令有几十W条

现在的想法是：
1.这个模型到底是不是有没有收敛，是不是模型训练没有问题，只是Qwen1.5能力很强，对于这些数据集接收能力很强，正常震荡【因为验证集没啥问题】
2.参数/数据集存在问题，但是调过很多次了还是没能解决
不知道大家在微调有没有遇到此类问题，是如何解决的，还希望有大佬为我解惑！

请教，在对Qwen1.5-14B大模型做微调的时候，遇到了奇怪的损失震荡，始终无法解决

问题分析与解答

1. 模型收敛性分析

(1) 学习率设置问题

(2) 数据分布不均

(3) 模型能力过强

2. 参数配置优化

(1) Batch Size 和 Gradient Accumulation

(2) LoRA 参数调整

(3) 学习率调度器

3. 数据集与评估策略

(1) 数据清洗

(2) 验证集划分

(3) 评估策略

4. 其他可能的原因与解决方案

(1) 模型初始化问题

(2) 硬件资源限制

总结与下一步行动

通义大模型

相关文章

热门讨论

热门文章