"千问1.5,用llama_factory训练的时候,这些ModelScope参数都是什么意思?
DISTRIBUTED_ARGS=""
--nproc_per_node $NPROC_PER_NODE \
--nnodes $NNODES \
--node_rank 5 \
--master_addr $MASTER_ADDR \
--master_port $MASTER_PORT
"""
在使用 llama_factory
对通义千问1.5(Qwen1.5)进行训练时,您提到的 DISTRIBUTED_ARGS
参数主要用于分布式训练的配置。这些参数的作用如下:
--nproc_per_node $NPROC_PER_NODE
--nproc_per_node 8
。--nnodes $NNODES
--nnodes 4
。--node_rank $NODE_RANK
node_rank
为0,第二个节点为1,依此类推。--master_addr $MASTER_ADDR
--master_port $MASTER_PORT
这些参数共同构成了分布式训练的基础配置,确保多个GPU或多个节点能够协同完成训练任务。以下是它们的典型应用场景: - 单机多卡:仅需设置 --nproc_per_node
和 --master_addr
、--master_port
。 - 多机多卡:需要完整配置所有参数,包括 --nnodes
和 --node_rank
。
注意:在实际使用中,请根据您的硬件环境和网络配置正确设置这些参数,以避免训练失败或性能瓶颈。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352