备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

机器学习PAI 1、求问-Dcluster参数设置建议，使用PAI命令行时，查看训练信息的路径?

机器学习PAI
1、求问-Dcluster参数设置建议，目前在测试案例数据的multiTower模型，PS节点一直是running状态，数据集链接【https://tianchi.aliyun.com/dataset/56】2、以及使用PAI命令行时，查看训练信息的路径![932401b461d06665916aed572a87c7a5.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_f66018e92f044d6a96b1e515c88dd867.png)
目前参数配置'{"ps":{"count":1, "cpu":1000}, "worker" : {"count":3, "cpu":1000, "gpu":100, "memory":40000}}'，是不是要的CPU太多，等不到资源？

收起

真的很搞笑 2023-12-10 15:40:27 68 发布于黑龙江版权

举报

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
1. 对于DCluster参数设置建议，可以考虑以下几点：
  
  调整PS节点的CPU和内存资源，可以尝试减少CPU资源，例如将cpu从1000降低到500。
  调整Worker节点的GPU资源，可以尝试增加GPU数量，例如将gpu从100增加到200。
  调整Worker节点的内存资源，可以尝试增加内存大小，例如将memory从40000增加到80000。
  检查集群的网络状况，确保网络带宽足够支持模型训练。
2. 在PAI命令行中查看训练信息，可以使用以下命令：
  
  $ aliyun ps logs --job-id <your_job_id>
  其中<your_job_id>需要替换为你的训练任务ID。
2023-12-11 13:49:56 发布于河南举报

赞同评论

评论
全部评论 (0)
登录后可评论
芯在这

就是和pai tensorflow一样的查看方式;之前一直等资源是因为我们集群gpu太少，等不到gpu资源导致，此回答整理自钉群“【EasyRec】推荐算法交流群”

2023-12-11 13:06:06 发布于黑龙江举报

赞同评论

评论
全部评论 (0)
登录后可评论

问答分类：

机器学习/深度学习 GPU云服务器人工智能平台 PAI

问答标签：

人工智能平台 PAI路径人工智能平台 PAI训练机器学习人工智能平台 PAI 人工智能平台 PAI参数人工智能平台 PAI设置

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

机器学习PAI save_summary_steps 这个参数是保存TF 的summary信息吗？

43

1

0

在机器学习PAI中，dssm模型训练保存成功了，在拆塔的时候报了个错是为什么？

54

1

0

机器学习PAI在fs里配置的特征实体，特征视图，模型特征的信息，在easyrec里怎么获取到？

45

1

0

机器学习PAI在 Pai 上做向量检索的时候报了这个错，但是我的脚本并没有 gpu 相关的配置链接？

41

1

0

机器学习PAI模型特征的配置，这个信息是怎么传给线上的呢？

64

1

0

机器学习PAI在哪里可以查到PAI都支持哪些算子？包括特征生产，特征变换，表变换等等

39

1

0

机器学习PAI海外服务器，有和PAI配套的决策引擎产品吗？

44

2

0

机器学习PAI训练数据的原始 hive表存在emr集群，pai如何才能组装好训练数据进行模型训练呢？

51

1

0

机器学习PAI 这个指的是oss路径吗？

57

1

0

咨询个机器学习PAI问题哈：使用easy_rec 下面的hit_rate_pai 代码计算hit

51

1

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

基于生物地理算法的MLP多层感知机优化matlab仿真

大语言模型中的归一化技术：LayerNorm与RMSNorm的深入研究

基于DeepSeek的多媒体应用技术探索与实践

基于DeepSeek的多模态融合技术：实现图像、视频与音频的协同分析

基于DeepSeek的生成对抗网络（GAN）在图像生成中的应用

热门讨论

热门文章

在海量用户中，将如何快速定位到目标人群进行个性化营销？

机器学习PAI有没有类似colab这种免费的在线Notebook代码编辑运行环境啊？

在api调用夸克搜索时，遇到权限不足问题

通义灵码 idea版本的代码提示如何设置？

AI生成海报or人工手绘，哪个更戳你？

为什么我的天池notebook中，无法创建notebook文件，也无法显示我的天池文档等内容。

通义灵码为什么让我的UBT下的idea彻底崩溃？

智能体知识库问题

如何高效的往交互建模（dsw）上传较大的文件，有从阿里云盘中直接下载或类似的方法吗？

java如何使用DashScope SDK对接qwen-long上传文件获取分析结果

展开全部

【玩转数据系列一】人口普查统计案例

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

天猫精灵业务如何使用机器学习PAI进行模型推理优化

打击黑灰产的利器 —— 图神经网络（GNN）

ALS算法实现用户音乐打分预测

PAI-STUDIO通过Tensorflow处理MaxCompute表数据

asd【文本分析】新闻分类aaa_2493

商品推荐引擎实验版

农业贷款预测的回归算法实现_0

展开全部

还有其他疑问?