备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope的swift训练的时候loss下不来怎么办，需要降低学习率吗？

ModelScope的swift训练的时候loss下不来怎么办，需要降低学习率吗？参考sft.sh， qwen_7b_chat ，sft是example里面的，没改过 # Experimental environment: V100, A10, 3090

18GB GPU memory

PYTHONPATH=../../.. \
CUDA_VISIBLE_DEVICES=0 \
python llm_sft.py \
--model_id_or_path qwen/Qwen-7B-Chat \
--model_revision master \
--sft_type lora \
--tuner_backend swift \
--template_type chatml \
--dtype AUTO \
--output_dir output \
--dataset blossom-math-zh \
--train_dataset_sample -1 \
--num_train_epochs 1 \
--max_length 2048 \
--check_dataset_strategy warning \
--lora_rank 8 \
--lora_alpha 32 \
--lora_dropout_p 0.05 \
--lora_target_modules DEFAULT \
--gradient_checkpointing true \
--batch_size 1 \
--weight_decay 0.01 \
--learning_rate 1e-4 \
--gradient_accumulation_steps 16 \
--max_grad_norm 0.5 \
--warmup_ratio 0.03 \
--eval_steps 100 \
--save_steps 100 \
--save_total_limit 2 \
--logging_steps 10 \
--use_flash_attn false \
--push_to_hub false \
--hub_model_id qwen-7b-chat-lora \
--hub_private_repo true \
--hub_token 'your-sdk-token' \

展开

收起

陈幕白 2023-12-13 15:52:55 216 版权

1 条回答

写回答

取消提交回答

顾九思

看你的命令行的输出，发个文件给我。--lora_target_modules DEFAULT E\ 改成 --lora_target_modules ALL \ 试试，此回答整理自钉群 “魔搭ModelScope开发者联盟群 ①”

2023-12-13 16:46:49

赞同展开评论

相关问答

魔塔的swift web-ui 训练好后模型要怎么导出

178

0

0

ModelScope为啥使用notebook的cpu版本，finetune.sh脚本去训练一直失败？

148

1

0

modelscope-funasr微调时候会出现loss为负的情况，怎么回事？

119

0

0

ModelScope我微调Qwen2-7B-Instruct,loss一直不变是什么原因？

209

1

0

在modelscope-funasr中训练数据时长和训练时长有没有一个估算公式？

131

0

0

在modelscope-funasr中请问sensevoice微调时，训练数据怎么准备？

205

0

0

请问ModelScope自己学习和本地开发的话推荐什么样的服务器配置？

98

0

0

ModelScope中，使用SWIFT的进行sft报错，这是要升级驱动？

205

1

0

ModelScope上传后刷新页面再提问就不再是检索的知识了，没有学习进去，怎么解决？

64

1

0

ModelScope创空间成功运行了，如何上传文档让其学习知识库？

123

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

阿里云服务器一年多少钱？最新价格公开CPU内存、带宽和系统盘费用清单

基于SpringBoot的番茄种植全流程管理系统

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

服务器上onnxruntime-gpu 调用结束，如何释放显存

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

在ModelScope中，下载模型时的ssl问题怎么解决？!

ModelScope通义千问是多大的模型参数，收费标准跟7B有差距吗？

ModelScope的PAI-DSW中，怎么上传一个文件夹？

展开全部

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

展开全部

还有其他疑问?