ModelScope中跑adaseq bert-crf例子(https://github.com/modelscope/AdaSeq/blob/master/examples/bert_crf/configs/maoe_example.yaml)
环境:torch1.11.0,modelscope1.8.4,adaseq0.6.4
单机2卡命令:python -m torch.distributed.launch --nproc_per_node=2--master_port=29527 scripts/train.py -c $config
异常:单机2卡和多机2卡都报下面的错误,单机1卡则能跑通
麻烦验证下
您参考一下这里的分布式训练https://modelscope.cn/docs/%E8%AE%AD%E7%BB%83%E7%9A%84%E8%AF%A6%E7%BB%86%E5%8F%82%E6%95%B0 或者您github上开个issue,多卡的情况我这边暂时还没法复现哦。——此回答整理自钉群:魔搭ModelScope开发者联盟群 ①