Horovod
是一个由Uber
开源的第三方框架,它支持TensorFlow
、PyTorch
以及MXNet
等主流的深度学习框架,可以轻松地实现高性能的分布式训练。
1.安装CUDA和NCCL
系统可能已经安装了CUDA
和NCCL
,但是尚未添加至环境变量PATH当中。可以执行locate -i nccl
或find /usr/ | grep -i nccl
获取NCCL的安装路径。
需要注意的是,CUDA的版本必须与torch.version.cuda
一致。
2.安装Horovod
在完成配置后,可以正式安装Horovod。
HOROVOD_NCCL_HOME = /usr/local/nccl-2 HOROVOD_NCCL_HOME=/usr/local/cuda HOROVOD_GPU_OPERATIONS = NCCL pip install --no-cache-dir /horovod
重要的是要确保<HOROVOD_CUDA_HOME>/bin/nvcc
和<HOROVOD_NCCL_HOME>/lib/
这两个路径存在。
在安装完成后,可以使用一下命令测试是否成功安装:
import horovod.torch as hvd ivd.init()