训练脚本如下:
MODEL=/models/Qwen3-8B
OUTPUT_DIR=/sft_output/zhongliu/Qwen3-8B/zhongliu_v5
MASTER_PORT=29500 \
NPROC_PER_NODE=4 \
CUDA_VISIBLE_DEVICES=4,5,6,7 \
swift sft \
--model ${MODEL} \
--train_type full \
--torch_dtype bfloat16 \
--num_train_epochs 3 \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 1 \
--learning_rate 1e-5 \
--gradient_accumulation_steps 4 \
--save_strategy epoch \
--logging_steps 1 \
--max_length 10240 \
--warmup_ratio 0.05 \
--dataloader_num_workers 8 \
--save_total_limit 5 \
--save_only_model true \
--output_dir ${OUTPUT_DIR} \
--report_to tensorboard \
--deepspeed zero3 \
--gradient_checkpointing true \
--use_liger_kernel \
--attn_impl flash_attn \
测试temperature=0.6,top_p=0.95,还是会出现模型复读的情况,训练数据集是做的中医领域的相关数据集,自我认知以及安全性。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云自主研发的通义大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi