文档备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

我们机器学习PAI部署EAS服务都是正常的，突然就报错GPU资源不足了？

"机器学习PAI中，我们这边有个线上故障，之前我们EAS服务资源组配置的机器规格是ecs.gn6i-c4g1.xlarge，部署EAS服务都是正常的，突然就报错GPU资源不足了
可以不可以推荐几款用于替代的GPU机器规格？"

展开

收起

真的很搞笑 2023-11-12 09:37:01 312 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

vohelon

可以通过Docker或Kubernetes使用eGPU优化套件，进行GPU容器虚拟化和资源共享https://help.aliyun.com/zh/pai/user-guide/resnet50-model-training-and-inference-based-on-egpu-optimization-suite?spm=a2c4g.11186623.0.i62

本文以卷积神经网络模型ResNet50的训练和推理为例，为您介绍如何通过Docker或Kubernetes使用eGPU优化套件，进行GPU容器虚拟化和资源共享。本实践中的ResNet50模型基于NVIDIA官方开源代码DeepLearningExamples实现。

2023-11-12 11:10:47

赞同展开评论

问答分类：

异构计算机器学习/深度学习云服务器 ECS GPU云服务器人工智能平台 PAI

问答标签：

GPU云服务器资源人工智能平台 PAI部署部署GPU云服务器人工智能平台 PAI服务 GPU云服务器部署

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

在机器学习PAI中，模型 predict 有个报错，是什么原因？

238

1

0

在机器学习PAI中，加了难负样本就报错了，是不是难负样本导致的？

262

1

0

在机器学习PAI中，这个报错是为什么？

214

1

0

机器学习PAI报错的代码没有配 gpu，把 gpu 设为 0 就行？

239

0

0

机器学习PAI是要授权AutoML？没开通featurestore的可以吗？

240

5

0

机器学习PAI组件化如何配多个优化器？

147

2

0

请教下机器学习PAI 金融云的dataworkd可以调度公共云的pai DLC吗？

673

2

0

机器学习PAI怎么从polar_X数据库中直接生成pai平台的模型训练集啊？

217

0

0

请问下机器学习PAI，非PAI用户，如何在自己的服务器上拉去以下镜像？

187

1

0

机器学习PAI的FeatureStore部分有授权的设计吗？

250

3

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

英伟达三代旗舰显卡性能测试：5090、4090、3090

大模型GPU推理队列排队治理：限流规则+优先级调度+长短拆分+集群负载指南.172

面向跨境金融类网络钓鱼攻击的多维度识别与闭环防御体系研究

多渠道分流式贷款短信钓鱼检测与即时通讯引流闭环防御研究

深度拆解阿里云服务器ECS：CPU内存、公网带宽、系统盘如何搭配最划算？

相关解决方案

更多

PAI部署Stable Diffusion WebUI服务

一键训练模型及部署GPU共享推理服务

部署 Nginx 并通过 Ingress 暴露服务

快速部署DeepSeek-OCR

通义灵码一站式定制专属MCP服务

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

请问在机器学习PAI里mc需要另外配置json函数库嘛？

返回代码RISK.RISK_CONTROL_REJECTION

机器学习PAI那如果是; 作为分隔符，config的配置是不是也要按照;作为分隔符，就是这个地方？

阿里云百炼大模型怎么收费？要钱吗？

阿里云百炼中，数据上传后，存储位置，安全性？

【百问百答】机器学习pai问答合集

机器学习PAI的MAC 系统能运行 ALINK 吗

ai能像钢铁侠里的贾维斯一样智能吗

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列一】人口普查统计案例

阿里巴巴机器学习系列课程

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

【玩转数据系列三】利用图算法实现金融行业风控

基于对象特征的推荐

机器学习PAI全新功效——实时新闻热点Online Learning实践

阿里大航杯AI电力大赛比赛分享及数加平台，机器学习pai使用经验

云端深度学习框架TensorFlow读取数据IO的高效方式

大规模深度学习优化技术在PAI平台中的应用及实践

展开全部

还有其他疑问?