"千问1.5,用llama_factory训练的时候,这些ModelScope参数都是什么意思?
DISTRIBUTED_ARGS=""
--nproc_per_node $NPROC_PER_NODE \
--nnodes $NNODES \
--node_rank 5 \
--master_addr $MASTER_ADDR \
--master_port $MASTER_PORT
"""
在使用 llama_factory 对通义千问1.5(Qwen1.5)进行训练时,您提到的 DISTRIBUTED_ARGS 参数主要用于分布式训练的配置。这些参数的作用如下:
--nproc_per_node $NPROC_PER_NODE--nproc_per_node 8。--nnodes $NNODES--nnodes 4。--node_rank $NODE_RANKnode_rank 为0,第二个节点为1,依此类推。--master_addr $MASTER_ADDR--master_port $MASTER_PORT这些参数共同构成了分布式训练的基础配置,确保多个GPU或多个节点能够协同完成训练任务。以下是它们的典型应用场景: - 单机多卡:仅需设置 --nproc_per_node 和 --master_addr、--master_port。 - 多机多卡:需要完整配置所有参数,包括 --nnodes 和 --node_rank。
注意:在实际使用中,请根据您的硬件环境和网络配置正确设置这些参数,以避免训练失败或性能瓶颈。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352