开发者社区 > 云原生 > 正文

如何在 ACK 集群中使用 GPU 来执行机器学习任务?

如何在 ACK 集群中使用 GPU 来执行机器学习任务?

展开
收起
1358896759097293 2021-03-23 20:16:58 888 0
1 条回答
写回答
取消 提交回答
  • 45271990@qq.com

    我们在 YAML 文件中指定了 ECI GPU 实例类型,该实例类型包含一颗 NVIDIA P4 GPU。然后我们指定了容器镜像为 nvcr.i o/nvidia/pytorch,该镜像是由 NVIDIA 提供,内部已经封装好了 CUDA/PyTorch 等工 具。最后,我们通过 nvidia.com/gpu 指定了要使用的 GPU 数量为 1。在 ASK 集群中,我们选择使用模板创建应用实例,然后在模板中输入 YAML 文件的内容,最后点击创建即可创建一个使用 GPU 的容器了。容器创建完成之后,首先我们通过 kubectl 命令登录到我们创建的容器中,然后执行 nvidia-smi 命令确认 GPU 是否可用。 nvidia-smi 命令 成功返回了 GPU 的信息,如 GPU 的型号的 P4、驱动版本号是 418.87.01、CUDA 版本为 10.1 等,这表示了我们创建的容器是可以正常使用 GPU 资源的。 接着, 我们进入 /workspace/examples/mnist 目录下执 行 python main.py 开始执行 MNIST 训练任务,MNIST 训练任务会先下载 MNIST 数据集,由于 MNIST 数据集较大可能下载时间会比较长。下载完数据集后,MNIST 训 练任务会开始进行数据集的训练。 当 MNIST 任务执行完之后,我们会看到训练结果打印在屏幕上 。MNIST 测试集包含 10000 张测试图片, 其中由 9845 张手写数字图片都被正确识别了,精度已经是相当高。有兴趣的同学可以对比测试一下不使 用 GPU 场景下的 MNIST 任务所用的训练时间。有兴趣可以观看视频https://edu.aliyun.com/lesson_2025_19014?spm=5176.10731542.0.0.72cb4123EuGmat#_19014

    2021-03-24 13:58:29
    赞同 展开评论 打赏

阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。

相关产品

  • 容器服务Kubernetes版
  • 相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载