文档备案控制台

开发者社区云原生正文

如何在 ACK 集群中使用 GPU 来执行机器学习任务？

如何在 ACK 集群中使用 GPU 来执行机器学习任务？

展开

收起

1358896759097293 2021-03-23 20:16:58 948 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

1358896759097293

45271990@qq.com

我们在 YAML 文件中指定了 ECI GPU 实例类型，该实例类型包含一颗 NVIDIA P4 GPU。然后我们指定了容器镜像为 nvcr.i o/nvidia/pytorch，该镜像是由 NVIDIA 提供，内部已经封装好了 CUDA/PyTorch 等工具。最后，我们通过 nvidia.com/gpu 指定了要使用的 GPU 数量为 1。在 ASK 集群中，我们选择使用模板创建应用实例，然后在模板中输入 YAML 文件的内容，最后点击创建即可创建一个使用 GPU 的容器了。容器创建完成之后，首先我们通过 kubectl 命令登录到我们创建的容器中，然后执行 nvidia-smi 命令确认 GPU 是否可用。 nvidia-smi 命令成功返回了 GPU 的信息，如 GPU 的型号的 P4、驱动版本号是 418.87.01、CUDA 版本为 10.1 等，这表示了我们创建的容器是可以正常使用 GPU 资源的。接着，我们进入 /workspace/examples/mnist 目录下执行 python main.py 开始执行 MNIST 训练任务，MNIST 训练任务会先下载 MNIST 数据集，由于 MNIST 数据集较大可能下载时间会比较长。下载完数据集后，MNIST 训练任务会开始进行数据集的训练。当 MNIST 任务执行完之后，我们会看到训练结果打印在屏幕上。MNIST 测试集包含 10000 张测试图片，其中由 9845 张手写数字图片都被正确识别了，精度已经是相当高。有兴趣的同学可以对比测试一下不使用 GPU 场景下的 MNIST 任务所用的训练时间。有兴趣可以观看视频https://edu.aliyun.com/lesson_2025_19014?spm=5176.10731542.0.0.72cb4123EuGmat#_19014

2021-03-24 13:58:29

赞同展开评论

问答分类：

机器学习/深度学习异构计算容器服务Kubernetes版 GPU云服务器

问答标签：

集群GPU云服务器容器服务Kubernetes版集群 ack集群GPU云服务器容器服务Kubernetes版集群gpu 容器服务Kubernetes版gpu

问答地址：

开发者社区 > 云原生 > 问答

相关问答

容器服务ACK集群会主动清理节点上的docker images吗

192

1

0

容器服务ACK集群Pod申请CPU资源失败

188

1

0

运行深度学习任务时，用阿里云GPU服务器比ECS强在哪里？

147

1

0

SEA使用场景有哪些？

319

2

0

求助，人工智能平台 PAI-DSW运行模型时，找不到 GPU

276

0

0

如何配置一台搭载GPU的阿里云服务器以运行深度学习任务？

539

2

0

容器服务ACK pod有很多服务需要以内网IP+端口对非k8s集群内部对内网开放？

180

1

0

机器学习PAI报错的代码没有配 gpu，把 gpu 设为 0 就行？

171

0

0

机器学习PAI在 Pai 上做向量检索的时候报了这个错，但是我的脚本并没有 gpu 相关的配置链接？

146

1

0

在GPU集群上，HybridBackend如何实现训练的同步性？

166

1

0

云原生

阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践，通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式，助力制造业企业高效上云，实现系统稳定、应用敏捷智能。拥抱云原生，让创新无处不在。

我要提问

收录在圈子:

阿里云云原生

9244

+ 订阅

阿里云云原生应用平台肩负阿里巴巴集团基础设施云化以及核心技术互联网化的重要职责，致力于打造稳定、标准、先进的云原生产品，成为云原生时代的引领者，推动行业全面想云原生的技术升级，成为阿里云新增长引擎。商业化产品包括容器、云原生中间件、函数计算等。

相关文章

离线AI部署教程：阿里云、OpenClaw+Ollama本地模型配置、全环境搭建与常见问题解答

欢迎报名！龙蜥智算联盟 MeetUp 带你直击 AI 基础设施技术最前线

MATLAB的雷达脉冲信号MTI（动目标显示）和MTD（动目标检测）处理的实现

大模型应用：K-Means/LDA + 千问大模型：无监督文本自动打标完整方案.85

什么是异构算力管理平台？一文讲清核心概念、能力边界与应用价值

热门讨论

热门文章

用java sdk创建access key，却报bucket不存在的错

默认情况下，从函数计算FC侧操作，创建的nas是性能型，能否手动创建容量型规格nas在FC中使用呢？

函数计算HTTP求助

函数计算，这个是什么问题呢，今天点击访问域名进不去了？

请问一下域名备案时在“填写网站信息” 怎么设置绑定到计算函数中呢不想设置ECS。

请问主域名备案了，子域名还要备案吗？

阿里函数计算中python打包第三方库是什么？

函数计算的OSS触发器可以只有文件前缀没有后缀吗？

自适应容器

Serverless在推进过程中会遇到什么样的挑战？该如何破局？

展开全部

Docker CE 镜像源站

Minikube - Kubernetes本地实验环境

微服务架构的理论基础 - 康威定律

微服务（Microservice）那点事

Docker的Windows容器初体验

3分钟，了解阿里云热门开发者工具 Cloud Toolkit

Docker学习路线图 (持续更新中)

利用Zipkin对Spring Cloud应用进行服务追踪分析

当 Kubernetes 遇到阿里云

基于Docker容器的，Jenkins、GitLab构建持续集成CI

展开全部

还有其他疑问?