机器学习PAI中如果每台worker各有两块GPU，如何指定使用哪两块GPU？

机器学习PAI中如果每台worker各有两块GPU，如何指定使用哪两块GPU（使用每台机器各一块GPU 另一块闲置）？

展开

收起

冰激凌甜筒 2023-04-10 13:02:24 301 0

4 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
在阿里云机器学习平台（Machine Learning Platform for AI，简称PAI）中，可以通过以下步骤来指定每台 worker 使用哪两块 GPU：

1、在创建 PAI 任务时，在任务的 JSON 配置文件中，通过 "resourcePerRole" 字段指定每个角色的资源配置，例如：
```
"resourcePerRole": {
    "worker": {
        "cpu": 4,
        "gpu": 2
    }
}
```
上述配置表示每个 worker 角色分配 4 个 CPU 核心和 2 块 GPU。

2、在训练代码中，通过调用相关的深度学习框架的 API，设置指定的 GPU 设备。例如，对于 TensorFlow 框架，可以使用 tf.device() 函数来设置使用的 GPU 设备。例如：
```
import tensorflow as tf

# 设置使用指定的 GPU 设备
with tf.device("/gpu:0"):
    # 构建和训练模型的代码
```
上述代码将 TensorFlow 模型构建和训练的操作限定在第一块 GPU（设备名称为 "/gpu:0"）上运行。

需要注意的是，GPU 设备的命名方式可能因不同的硬件配置而有所不同，具体可以根据实际的硬件环境和任务需求进行调整。同时，在使用 GPU 进行分布式训练时，还需要考虑如何在多个 worker 之间合理地分配 GPU 资源，以充分利用硬件资源和优化训练性能。可以参考阿里云 PAI 的文档和示例代码进行详细配置和使用。
2023-04-11 09:46:29

赞同展开评论打赏
HaydenGuo

坚持这件事孤独又漫长。
- 可以使用以下命令指定使用哪两块GPU：
```
export CUDA_VISIBLE_DEVICES=GPU_ID1,GPU_ID2
```
其中，GPU_ID1和GPU_ID2是指定的两块GPU的ID。
- 如果每台机器只使用一块GPU，则另一块处于闲置状态。
2023-04-10 14:18:46

赞同展开评论打赏
微笑向日葵

这个可以通过export CUDA_VISIBLE_DEVICES来指定，此回答整理自钉群“EPL用户交流群”

2023-04-10 13:55:49

赞同展开评论打赏
凌云Cloud

发表文章、提出问题、分享经验、结交志同道合的朋友
你好，可以通过在ElasticDL配置文件中指定device字段来实现。具体来说，需要将device字段设置为gpu:<gpu_id>，其中<gpu_id>表示要使用的GPU设备的编号。

例如，如果有两台worker机器，每台机器有两块GPU（编号分别为0和1），可以使用以下配置文件：
```
replication:
  type: "data_parallelism"
  num_replicas: 2
  data_parallelism:
    gpu_ids: "0,0,1,1"
    pipelined_mode: true
    pipeline_configs:
      - name: "part1"
        num_microbatches: 1
        num_workers: 2
        worker2batch: 1
        device: "gpu:0"
      - name: "part2"
        num_microbatches: 1
        num_workers: 2
        worker2batch: 1
        device: "gpu:1"
```
在这个示例中，我们将每个部分的device字段设置为了gpu:0和gpu:1，分别表示使用第一块GPU和第二块GPU。对于每个worker机器，ElasticDL将会在其中一块GPU上运行神经网络的训练，而另一块GPU将会被保留作为备用GPU。
2023-04-10 13:41:33

赞同展开评论打赏