文档备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

求助，人工智能平台 PAI-DSW运行模型时，找不到 GPU

截屏2024-10-16 03.28.18.png

(envTimeLLM) root@dsw-456910-599d598865-67g8w:/mnt/workspace/Time-LLM# bash ./scripts/TimeLLM_ETTh1.sh
The following values were not passed to accelerate launch and had defaults used instead:
--num_machines was set to a value of 1
--dynamo_backend was set to a value of 'no'
To avoid this warning pass in values for each of the problematic parameters or run accelerate config.
[2024-10-16 03:14:13,335] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-10-16 03:14:13,587] [INFO] [comm.py:637:init_distributed] cdb=None
Traceback (most recent call last):
File "/mnt/workspace/Time-LLM/run_main.py", line 105, in
accelerator = Accelerator(kwargs_handlers=[ddp_kwargs], deepspeed_plugin=deepspeed_plugin)
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/accelerate/accelerator.py", line 371, in init
self.state = AcceleratorState(
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/accelerate/state.py", line 777, in init
PartialState(cpu, **kwargs)
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/accelerate/state.py", line 211, in init
torch.cuda.set_device(self.device)
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/torch/cuda/init.py", line 408, in set_device
torch._C._cuda_setDevice(device)
RuntimeError: CUDA error: invalid device ordinal
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

截屏2024-10-16 03.31.20.png

只有一个 gpu，已经设置了export CUDA_VISIBLE_DEVICES=0，但还是不行

展开

收起

游客gh2ock4e6m5xu 2024-10-16 08:10:07 356 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

0 条回答

写回答

取消提交回答

问答分类：

并行计算人工智能 Shell 异构计算 GPU云服务器人工智能平台 PAI

问答标签：

运行GPU云服务器人工智能模型人工智能gpu 人工智能GPU云服务器人工智能平台 PAI模型

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

运行深度学习任务时，用阿里云GPU服务器比ECS强在哪里？

243

1

0

Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗？

700

0

0

modelscope-funasr怎么设置使得模型可以用CUDA0以外的其他gpu？

34165

1

0

modelscope-funasr目前只能用给的两个paraformer模型吗？

319

0

0

modelscope-funasr最新的gpu高吞吐服务用的模型和原来cpu的参数量是一样的么？

398

0

0

modelscope-funasr最新的gpu高吞吐服务用的模型和原来cpu的是一样的么？

270

0

0

怎么搞才能运行起来？怎么从MS发到自己的GPU服务器?

198

1

0

如何配置一台搭载GPU的阿里云服务器以运行深度学习任务？

678

2

0

机器学习PAI这个eas的服务，虽然运行起来了，但是打印出这个，这个是有的问题吗？

160

1

0

机器学习PAI是要授权AutoML？没开通featurestore的可以吗？

240

5

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

最新版通义千问（Qwen3.7-Max）功能介绍

最新版通义千问（Qwen3.7-Plus）功能介绍

最新版阿里云千问大模型（Qwen）功能介绍

银行运营自动化：7大场景的AI Skill落地实战

金融AI技能库：104个开源Skill即插即用

相关解决方案

更多

一键训练模型及部署GPU共享推理服务

GLM-5.2：长任务时代开源旗舰模型

OpenAI 重磅开源，快速部署GPT-OSS模型

基于 Spark 和 PyTorch 的模型训练方案

模型蒸馏：让0.6B模型媲美235B模型

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

请问在机器学习PAI里mc需要另外配置json函数库嘛？

返回代码RISK.RISK_CONTROL_REJECTION

机器学习PAI那如果是; 作为分隔符，config的配置是不是也要按照;作为分隔符，就是这个地方？

阿里云百炼大模型怎么收费？要钱吗？

阿里云百炼中，数据上传后，存储位置，安全性？

ai能像钢铁侠里的贾维斯一样智能吗

机器学习PAI的MAC 系统能运行 ALINK 吗

ACP认证创建RAG应用的代码块执行报错：BadZipFile: File is not a zip

展开全部

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

【玩转数据系列十七】机器学习实现双十一购物清单的自动商品标签归类

【通知】阿里云机器学习PAI即将商业化

如何使用阿里云机器学习PAI的离线周期性调度功能

协同过滤做商品推荐

阿里云机器学习PAI征文大赛正式启动

利用PAI-DSW访问Github, 快速获取最新的学习资源

电网用户窃电识别

脚把脚教你利用PAI训练出自己的CNN手写识别模型并部署为可用的服务

雾霾天气预测

展开全部

还有其他疑问?