文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope的swift训练的时候loss下不来怎么办，需要降低学习率吗？

ModelScope的swift训练的时候loss下不来怎么办，需要降低学习率吗？参考sft.sh， qwen_7b_chat ，sft是example里面的，没改过 # Experimental environment: V100, A10, 3090

18GB GPU memory

PYTHONPATH=../../.. \
CUDA_VISIBLE_DEVICES=0 \
python llm_sft.py \
--model_id_or_path qwen/Qwen-7B-Chat \
--model_revision master \
--sft_type lora \
--tuner_backend swift \
--template_type chatml \
--dtype AUTO \
--output_dir output \
--dataset blossom-math-zh \
--train_dataset_sample -1 \
--num_train_epochs 1 \
--max_length 2048 \
--check_dataset_strategy warning \
--lora_rank 8 \
--lora_alpha 32 \
--lora_dropout_p 0.05 \
--lora_target_modules DEFAULT \
--gradient_checkpointing true \
--batch_size 1 \
--weight_decay 0.01 \
--learning_rate 1e-4 \
--gradient_accumulation_steps 16 \
--max_grad_norm 0.5 \
--warmup_ratio 0.03 \
--eval_steps 100 \
--save_steps 100 \
--save_total_limit 2 \
--logging_steps 10 \
--use_flash_attn false \
--push_to_hub false \
--hub_model_id qwen-7b-chat-lora \
--hub_private_repo true \
--hub_token 'your-sdk-token' \

展开

收起

陈幕白 2023-12-13 15:52:55 279 版权

1 条回答

写回答

取消提交回答

顾九思

看你的命令行的输出，发个文件给我。--lora_target_modules DEFAULT E\ 改成 --lora_target_modules ALL \ 试试，此回答整理自钉群 “魔搭ModelScope开发者联盟群 ①”

2023-12-13 16:46:49

赞同展开评论

相关问答

魔塔的swift web-ui 训练好后模型要怎么导出

265

0

0

ModelScope为啥使用notebook的cpu版本，finetune.sh脚本去训练一直失败？

206

1

0

请问用modelscope里swift的dpo微调模型的断点Debug方式，有相关文档说明吗？

496

1

0

ModelScope我试着用swift 微调后微调的模型都失去逻辑怎么办？

257

1

0

modelscope-funasr微调时候会出现loss为负的情况，怎么回事？

158

0

0

modelscope训练完一直出现同一个错误怎么回事？

311

1

0

ModelScope我微调Qwen2-7B-Instruct,loss一直不变是什么原因？

270

1

0

在modelscope-funasr中训练数据时长和训练时长有没有一个估算公式？

186

0

0

在modelscope-funasr中请问sensevoice微调时，训练数据怎么准备？

280

0

0

ModelScope中，使用SWIFT的进行sft报错，这是要升级驱动？

248

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

ABoVE：加拿大西北地区土壤有机质的燃烧严重程度，2014-2015 年

RFID为涉密资产提供安全保障维护

9.9元定制专属AI员工：阿里云OpenClaw三步极速部署指南

UV实战教程，我啥要从Anaconda切换到uv来管理包？

基于伪造人力资源更新的凭证窃取攻击链分析与防御

热门讨论

热门文章

com/action/joingroup?code=v1是什么意思

ModelScope中，模型下载默认路径在哪个路径？

如何下载modelscope模型？

ModelScope下载速度慢怎么解决？

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

请问去哪里找ModelScope里面各个模型的id？

在ModelScope中，下载模型时的ssl问题怎么解决？!

ModelScope中，我的推理卡，v100，不支持fp16，我要怎么改？

ModelScope这里的modelID怎么填写？

ModelScope模型是咋收费的, 是按机器每小时收费嘛？

展开全部

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

基于YOLO11的交通违规检测系统（Python源码+数据集+Pyside6界面）

红外小目标检测新突破！异常感知检测头AA-YOLO：节俭又鲁棒，小样本也能精准识别

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

展开全部

还有其他疑问?