开发者社区 ModelScope模型即服务正文

modelscope-funasr多显卡一起训练需要注意哪些？

展开

收起

三分钟热度的鱼 2024-01-17 19:03:29 143 版权

阿里云 AI 助理回答

在使用ModelScope-FunASR进行多显卡训练时，需要注意以下关键点，以确保训练过程顺利并充分利用多GPU资源：

1. 硬件与环境配置

显卡要求：推荐使用高性能的GPU（如V100、A100等），并且每张显卡的显存应满足模型需求。对于较大的模型，建议选择具有更高显存的GPU。
Python版本：确保环境中安装了Python 3.7或更高版本。

依赖安装：

克隆ModelScope-FunASR代码仓库：

git clone https://github.com/alibaba-damo-academy/FunASR.git
cd FunASR

安装依赖包：

pip install -r requirements.txt
pip install funasr[clip]

验证安装是否成功：

python -c "import funasr.utils.cli_utils; funasr.utils.cli_utils.print_info()"

2. 分布式训练配置

PyTorch分布式支持：FunASR基于PyTorch框架，因此需要正确配置分布式训练环境。以下是关键步骤：
- 设置CUDA_VISIBLE_DEVICES环境变量，指定参与训练的GPU设备编号。例如：
```
export CUDA_VISIBLE_DEVICES=0,1,2,3
```
- 使用torch.distributed模块初始化分布式训练环境。通常可以通过以下命令启动：
```
python -m torch.distributed.launch --nproc_per_node=4 train.py
```
其中，--nproc_per_node参数表示使用的GPU数量。
NCCL版本要求：确保系统中安装的NCCL版本为2.7及以上，以支持高效的多GPU通信。

3. 数据并行与模型并行

数据并行：默认情况下，PyTorch会采用数据并行的方式分配训练任务。每个GPU处理不同的数据批次，最后汇总梯度更新模型参数。
模型并行：如果模型过大无法单卡加载，可以考虑模型并行策略，将模型的不同部分分配到不同GPU上。这需要手动调整代码逻辑。

4. GPU拓扑感知调度

如果使用阿里云容器服务Kubernetes版（ACK）进行训练，建议启用GPU拓扑感知调度功能，以优化多GPU之间的通信效率：
- 激活节点的GPU拓扑感知调度：
```
kubectl label node <Your Node Name> ack.node.gpu.schedule=topology
```
- 提交作业时设置-gputopology=true：
```
arena submit -gputopology=true -gang ***
```

5. 性能调优

Batch Size调整：根据显存大小合理设置Batch Size。较大的Batch Size可以提高训练效率，但可能会导致显存不足。

混合精度训练：启用混合精度训练（Mixed Precision Training）可以减少显存占用并加速训练。可以通过PyTorch的torch.cuda.amp模块实现：

from torch.cuda.amp import GradScaler, autocast

scaler = GradScaler()
for data, labels in dataloader:
  optimizer.zero_grad()
  with autocast():
      outputs = model(data)
      loss = criterion(outputs, labels)
  scaler.scale(loss).backward()
  scaler.step(optimizer)
  scaler.update()