如何在 ACK 集群中使用 GPU 来执行机器学习任务?
我们在 YAML 文件中指定了 ECI GPU 实例类型,该实例类型包含一颗 NVIDIA P4 GPU。然后我们指定了容器镜像为 nvcr.i o/nvidia/pytorch,该镜像是由 NVIDIA 提供,内部已经封装好了 CUDA/PyTorch 等工 具。最后,我们通过 nvidia.com/gpu 指定了要使用的 GPU 数量为 1。在 ASK 集群中,我们选择使用模板创建应用实例,然后在模板中输入 YAML 文件的内容,最后点击创建即可创建一个使用 GPU 的容器了。容器创建完成之后,首先我们通过 kubectl 命令登录到我们创建的容器中,然后执行 nvidia-smi 命令确认 GPU 是否可用。 nvidia-smi 命令 成功返回了 GPU 的信息,如 GPU 的型号的 P4、驱动版本号是 418.87.01、CUDA 版本为 10.1 等,这表示了我们创建的容器是可以正常使用 GPU 资源的。 接着, 我们进入 /workspace/examples/mnist 目录下执 行 python main.py 开始执行 MNIST 训练任务,MNIST 训练任务会先下载 MNIST 数据集,由于 MNIST 数据集较大可能下载时间会比较长。下载完数据集后,MNIST 训 练任务会开始进行数据集的训练。 当 MNIST 任务执行完之后,我们会看到训练结果打印在屏幕上 。MNIST 测试集包含 10000 张测试图片, 其中由 9845 张手写数字图片都被正确识别了,精度已经是相当高。有兴趣的同学可以对比测试一下不使 用 GPU 场景下的 MNIST 任务所用的训练时间。有兴趣可以观看视频https://edu.aliyun.com/lesson_2025_19014?spm=5176.10731542.0.0.72cb4123EuGmat#_19014
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。