ModelScope中我lora微调 mistral-7b，4卡微调到这里卡住不动了不知道怎么回事?

ModelScope中，我lora微调 mistral-7b，4卡微调，到这里卡住不动了，不知道怎么回事
这是gpu使用情况，有2卡一直是0nproc_per_node=2

PYTHONPATH=../../.. \
CUDA_VISIBLE_DEVICES=0,1,2,3 \
torchrun \
--nproc_per_node=$nproc_per_node \
--master_port 29500 !lQLPJxi0eV1ufdfNA0TNBdiw0spESvrjkBQFRdzs48CjAA_1496_836.png

llm_sft.py \
--model_id_or_path OpenBuddy/openbuddy-mistral-7b-v13.1 \
--model_revision master \
--sft_type lora \
--tuner_backend swift \
--template_type openbuddy \
--dtype bf16 \
--output_dir output2 \
--ddp_backend nccl \
--custom_train_dataset_path   /home/yu-test/mydata/swift/examples/pytorch/llm/blossom-math-v2/merged.jsonl \
--train_dataset_sample -1 \
--num_train_epochs 50 \
--max_length 8192 \
--check_dataset_strategy warning \
--lora_rank 8 \
--lora_alpha 32 \
--lora_dropout_p 0.05 \
--lora_target_modules ALL \
--gradient_checkpointing true \
--batch_size 1 \
--weight_decay 0.01 \
--learning_rate 1e-4 \
--gradient_accumulation_steps $(expr 16 / $nproc_per_node) \
--max_grad_norm 0.5 \
--warmup_ratio 0.03 \
--eval_steps 100 \
--save_steps 100 \
--save_total_limit 2 \
--logging_steps 10 \
--use_flash_attn false \
--push_to_hub false \
--hub_model_id openbuddy-mistral-7b-chat-lora \
--hub_private_repo true \
--hub_token 'your-sdk-token' \
--only_save_model true \

这是lora的脚本
lQLPJxi0eV1ufdfNA0TNBdiw0spESvrjkBQFRdzs48CjAA_1496_836.png
一直卡在这里不动

展开

收起

多麻辣哦 2023-11-22 20:30:19 660 版权

2 条回答

写回答

取消提交回答

sunrr
根据您提供的信息，您的模型微调在Mistral-7b上使用了4卡进行训练，但训练过程中卡住不动。这可能是由于以下原因之一：
1. 内存不足：您的系统可能没有足够的可用内存来支持多卡训练。您可以尝试减少批量大小（--batch_size）或增加每个进程的内存分配（--memory_allocated）。
2. 数据加载问题：您的训练数据集可能太大，导致单卡无法在合理的时间内完成加载和处理。您可以尝试减小数据集的大小或使用数据分片技术来解决这个问题。
3. 硬件资源限制：您的硬件可能不支持多卡训练，或者某些GPU核心被占用过多。您可以尝试检查您的硬件配置并确保它们满足训练要求。
4. 训练参数设置不合适：您的训练参数可能不适合您的硬件和数据集。您可以尝试调整学习率、梯度累积步数等参数以获得更好的训练效果。
为了解决这个问题，您可以尝试以下步骤：
1. 检查系统内存和GPU资源使用情况，确保它们足够支持多卡训练。
2. 减小数据集大小或使用数据分片技术来提高数据加载速度。
3. 检查硬件配置并确保它们满足训练要求。
4. 调整训练参数，例如学习率、梯度累积步数等，以获得更好的训练效果。
2023-11-29 11:03:37

赞同展开评论
超爱吃辣

nproc_per_node=4我这里跑没问题的, 你重新拉一下代码, 然后跑这个sh.
https://github.com/modelscope/swift/tree/main/examples/pytorch/llm/scripts/openbuddy_mistral_7b_chat/lora_mp_ddp
——此回答整理自钉群：魔搭ModelScope开发者联盟群 ①

2023-11-22 21:30:01

赞同展开评论

ModelScope中我lora微调 mistral-7b，4卡微调到这里卡住不动了不知道怎么回事?

计算机视觉

相关文章

热门讨论

热门文章