备案控制台

开发者社区 ModelScope模型即服务正文

ModelScope有优化的地方吗？

"# Experimental environment: 2 * 4090

2 * 24GB GPU memory

export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1
export CUDA_LAUNCH_BLOCKING=1
CUDA_VISIBLE_DEVICES=0,1 \
NPROC_PER_NODE=2 \
swift sft \
--model_id_or_path /data/models/Baichuan2-13B-Chat \
--model_type baichuan-13b-chat \
--model_revision master \
--template_type baichuan \
--sft_type lora \
--tuner_backend peft \
--dtype AUTO \
--output_dir output \
--dataset ms-bench-mini \
--train_dataset_sample -1 \
--num_train_epochs 3 \
--max_length 512 \
--check_dataset_strategy warning \
--lora_rank 8 \
--lora_alpha 32 \
--lora_dropout_p 0.05 \
--lora_target_modules W_pack \
--gradient_checkpointing true \
--batch_size 1 \
--weight_decay 0.1 \
--learning_rate 1e-4 \
--gradient_accumulation_steps 16 \
--max_grad_norm 0.5 \
--warmup_ratio 0.03 \
--eval_steps 100 \
--save_steps 100 \
--save_total_limit 2 \
--logging_steps 10 \
Loading checkpoint shards: 83%时显存爆掉了,ModelScope有优化的地方吗？"

展开

收起

小小爱吃香菜 2024-05-01 08:56:39 95 版权

1 条回答

写回答

取消提交回答

为了利利

deepspeed，参考以下链接,https://github.com/modelscope/swift/tree/main/examples/pytorch/llm/scripts/qwen_14b_chat/lora_ddp_zero3 您加一下，--ip和--port,或者用vscode也行.此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-05-01 15:38:29

赞同展开评论

相关问答

在不微调ModelScope模型的前提下，有啥优化的方法吗？

95

1

0

以下命令是可以基于这个调优ModelScope模型再进行下一步优化的是吗？

129

0

0

modelscope-funasr有什么方法可以优化一下Paraformer+cam++多人说话呢？

163

0

0

对比发现Qwen2-72B-int2效果优于Qwen2-72B，ModelScope有什么优化思路？

196

1

0

modelscope-funasr有没有什么办法可以优化一下，能够控制在1秒返回？

363

1

0

ModelScope支持多进程吗？有计划优化吗？

100

1

0

ModelScope部署了ollama量化的模型，还可以继续进行优化和深度学习么？

191

1

0

ModelScope中，qwen2.0的模型有办法进行量化或其他优化来降低电脑配置要求么？

114

1

0

modelscope中本地部署QWEN1.5-32B用两张A10的卡很慢，是需要做多卡优化吗？

444

1

0

modelscope-funasr的paraformer这个模型如果想进一步优化区分对话人是否可以？

100

0

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

相关文章

阿里云 AI 服务器配置及价格表_今年最新阿里云GPU服务器租赁费用（1个月、1年和1小时收费明细表）

3.7V升压5V芯片深度剖析，PW5100/PW5300A/PW6276，选型无忧

阿里云服务器4核8G价格参考，原价收费标准，活动价898元1年起，企业首选热门配置

室内人员定位手环从核心技术的差异、核心功能、应用场景及选购要点详解

RFID实验室资产轻松管控

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope中apikey在哪申请？

dataset的版本问题导致与modelscope不兼容

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

在modelscope-funasr想自己训练一种low resource 的方言，有训练的方案吗？

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

com/action/joingroup?code=v1是什么意思

关于 Windows平台上 ttsfrd 库的问题。

展开全部

Z-Image：冲击体验上限的下一代图像生成模型

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

Agent Skills技术协议与开源实现，让大模型拥有“即插即用”技能

共学 | 2025年，更加有效地搭建Agent

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

中文大模型体验

Meta SAM3开源：让图像分割，听懂你的话

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

通义百聆语音双子星，同步开源！

展开全部

还有其他疑问?