备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

求助，人工智能平台 PAI-DSW运行模型时，找不到 GPU

截屏2024-10-16 03.28.18.png

(envTimeLLM) root@dsw-456910-599d598865-67g8w:/mnt/workspace/Time-LLM# bash ./scripts/TimeLLM_ETTh1.sh
The following values were not passed to accelerate launch and had defaults used instead:
--num_machines was set to a value of 1
--dynamo_backend was set to a value of 'no'
To avoid this warning pass in values for each of the problematic parameters or run accelerate config.
[2024-10-16 03:14:13,335] [INFO] [real_accelerator.py:191:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2024-10-16 03:14:13,587] [INFO] [comm.py:637:init_distributed] cdb=None
Traceback (most recent call last):
File "/mnt/workspace/Time-LLM/run_main.py", line 105, in
accelerator = Accelerator(kwargs_handlers=[ddp_kwargs], deepspeed_plugin=deepspeed_plugin)
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/accelerate/accelerator.py", line 371, in init
self.state = AcceleratorState(
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/accelerate/state.py", line 777, in init
PartialState(cpu, **kwargs)
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/accelerate/state.py", line 211, in init
torch.cuda.set_device(self.device)
File "/mnt/workspace/Time-LLM/envTimeLLM/lib/python3.10/site-packages/torch/cuda/init.py", line 408, in set_device
torch._C._cuda_setDevice(device)
RuntimeError: CUDA error: invalid device ordinal
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

截屏2024-10-16 03.31.20.png

只有一个 gpu，已经设置了export CUDA_VISIBLE_DEVICES=0，但还是不行

展开

收起

游客gh2ock4e6m5xu 2024-10-16 08:10:07 200 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

0 条回答

写回答

取消提交回答

问答分类：

并行计算人工智能 Shell 异构计算 GPU云服务器

问答标签：

运行GPU云服务器人工智能模型人工智能gpu 人工智能GPU云服务器人工智能平台 PAI模型

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

在机器学习PAI中，模型 predict 有个报错，是什么原因？

105

1

0

DataWorks中pyodps这个工具可以写机器学习模型嘛？如何突破50m的限制？

153

1

0

机器学习PAI这个eas的服务，虽然运行起来了，但是打印出这个，这个是有的问题吗？

62

1

0

机器学习PAI报错的代码没有配 gpu，把 gpu 设为 0 就行？

97

0

0

机器学习PAI在 Pai 上做向量检索的时候报了这个错，但是我的脚本并没有 gpu 相关的配置链接？

90

1

0

机器学习PAI有两个关于 DSSM 模型负采样的问题想要请教一下？

79

1

0

为什么随着物联网、人工智能等技术的发展，中心云计算开始显得不足？

114

1

0

人工智能技术大致经历了怎样的发展脉络？有哪些关键发展节点？又在哪些领域和应用中取得了最显著的进步？

149

1

0

人工智能渗透到数据库技术中，带来了什么样的变化？

85

1

0

使用AI/ML进行威胁检测的人工智能网络安全技术为何排在首位？

1217

1

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

Dify入门实战：5分钟搭建你的第一个AI测试用例生成器

AI驱动的测试：用Dify工作流实现智能缺陷分析与分类

官宣：Ray 正式加入 PyTorch 基金会

《Unity渲染工具协同进阶：跳出单一工具的局限》

《风格锚点+动态适配：Unity跨设备渲染的核心逻辑》

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

机器学习PAI测试集跟验证集怎么划分的？

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

机器学习PAI EasyRec中的eval_config怎么用？

在api调用夸克搜索时，遇到权限不足问题

为什么我的天池notebook中，无法创建notebook文件，也无法显示我的天池文档等内容。

阿里云的镜像上搜不到机器学习PAI的input用的common_io为什么？

自定义机器人消息，curl: (35) TCP connection reset by peer

灵积平台上，用通义千问的开源大模型接口响应非常慢

在海量用户中，将如何快速定位到目标人群进行个性化营销？

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列六】文本分析算法实现新闻自动分类

【玩转数据系列三】利用图算法实现金融行业风控

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

阿里大航杯AI电力大赛比赛分享及数加平台，机器学习pai使用经验

【教程】5分钟在PAI算法市场发布自定义算法

云端深度学习框架TensorFlow读取数据IO的高效方式

【玩转数据系列十六】机器学习PAI通过声音分辨男女（含语音特征提取相关数据和代码）

基于深度学习模型Wide&Deep的推荐

【玩转数据系列十一】机器学习PAI眼中的《人民的名义》

展开全部

还有其他疑问?