开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope中我lora微调 mistral-7b,4卡微调到这里卡住不动了不知道怎么回事?

ModelScope中,我lora微调 mistral-7b,4卡微调,到这里卡住不动了,不知道怎么回事cf50b3246dd418eebfeae4f42dffd41f.png7f60a4afcd588bcb73ecca81cb66cfde.png
这是gpu使用情况,有2卡一直是0nproc_per_node=2

PYTHONPATH=../../.. \
CUDA_VISIBLE_DEVICES=0,1,2,3 \
torchrun \
--nproc_per_node=$nproc_per_node \
--master_port 29500 !lQLPJxi0eV1ufdfNA0TNBdiw0spESvrjkBQFRdzs48CjAA_1496_836.png

llm_sft.py \
--model_id_or_path OpenBuddy/openbuddy-mistral-7b-v13.1 \
--model_revision master \
--sft_type lora \
--tuner_backend swift \
--template_type openbuddy \
--dtype bf16 \
--output_dir output2 \
--ddp_backend nccl \
--custom_train_dataset_path   /home/yu-test/mydata/swift/examples/pytorch/llm/blossom-math-v2/merged.jsonl \
--train_dataset_sample -1 \
--num_train_epochs 50 \
--max_length 8192 \
--check_dataset_strategy warning \
--lora_rank 8 \
--lora_alpha 32 \
--lora_dropout_p 0.05 \
--lora_target_modules ALL \
--gradient_checkpointing true \
--batch_size 1 \
--weight_decay 0.01 \
--learning_rate 1e-4 \
--gradient_accumulation_steps $(expr 16 / $nproc_per_node) \
--max_grad_norm 0.5 \
--warmup_ratio 0.03 \
--eval_steps 100 \
--save_steps 100 \
--save_total_limit 2 \
--logging_steps 10 \
--use_flash_attn false \
--push_to_hub false \
--hub_model_id openbuddy-mistral-7b-chat-lora \
--hub_private_repo true \
--hub_token 'your-sdk-token' \
--only_save_model true \

这是lora的脚本
lQLPJxi0eV1ufdfNA0TNBdiw0spESvrjkBQFRdzs48CjAA_1496_836.png
一直卡在这里不动

展开
收起
多麻辣哦 2023-11-22 20:30:19 200 0
2 条回答
写回答
取消 提交回答
  • 根据您提供的信息,您的模型微调在Mistral-7b上使用了4卡进行训练,但训练过程中卡住不动。这可能是由于以下原因之一:

    1. 内存不足:您的系统可能没有足够的可用内存来支持多卡训练。您可以尝试减少批量大小(--batch_size)或增加每个进程的内存分配(--memory_allocated)。

    2. 数据加载问题:您的训练数据集可能太大,导致单卡无法在合理的时间内完成加载和处理。您可以尝试减小数据集的大小或使用数据分片技术来解决这个问题。

    3. 硬件资源限制:您的硬件可能不支持多卡训练,或者某些GPU核心被占用过多。您可以尝试检查您的硬件配置并确保它们满足训练要求。

    4. 训练参数设置不合适:您的训练参数可能不适合您的硬件和数据集。您可以尝试调整学习率、梯度累积步数等参数以获得更好的训练效果。

    为了解决这个问题,您可以尝试以下步骤:

    1. 检查系统内存和GPU资源使用情况,确保它们足够支持多卡训练。

    2. 减小数据集大小或使用数据分片技术来提高数据加载速度。

    3. 检查硬件配置并确保它们满足训练要求。

    4. 调整训练参数,例如学习率、梯度累积步数等,以获得更好的训练效果。

    2023-11-29 11:03:37
    赞同 展开评论 打赏
  • e2f3a455c7b34d858edada6955f292d1.png
    nproc_per_node=4我这里跑没问题的, 你重新拉一下代码, 然后跑这个sh.
    https://github.com/modelscope/swift/tree/main/examples/pytorch/llm/scripts/openbuddy_mistral_7b_chat/lora_mp_ddp
    ——此回答整理自钉群:魔搭ModelScope开发者联盟群 ①

    2023-11-22 21:30:01
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载