开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI在跑训练的时候报了这个错可以帮忙看下嘛?

机器学习PAI在跑训练的时候报了这个错可以帮忙看下嘛?:https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240506151211391gt6a39rni3d_1c9fc5b8_7425_4d5e_b411_2c606317ed38&token=UlVzL2E0dFlJZHBBcHoyVDN6TFBxVFIzdWl3PSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MTc2MDAzMzYseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDUwNjE1MTIxMTM5MWd0NmEzOXJuaTNkXzFjOWZjNWI4Xzc0MjVfNGQ1ZV9iNDExXzJjNjA2MzE3ZWQzOCJdfV0sIlZlcnNpb24iOiIxIn0=
pai -name tensorflow
-Dscript="odps://ump_ads_dev/resources/easy_rec_auto_v9.tar.gz"
-DentryFile="pai_jobs/run.py"
-Dtables="odps://ump_ads_dev/tables/autoencoder_train_feature_sparse_label_train_bak,odps://ump_ads_dev/tables/autoencoder_train_feature_sparse_label_val"
-Dbuckets="oss://rta-bucket/?role_arn=acs:ram:::role/rta-role&host=oss-cn-hangzhou-zmf-internal.aliyuncs.com"
-Dcluster='{"ps":{"count":1, "cpu":1500, "memory":50000}, "worker" : {"count":16, "cpu":0, "gpu":50, "memory":100000}}'
-DautoEnablePsTaskFailover=false
-DuseSparseClusterSchema=false
-DuserDefinedParameters="--cmd='train' --with_evaluator=1 --config='oss://rta-bucket/autoencoder/autoencoder_v10.config' --model_dir='oss://rta-bucket/autoencoder/v11_0506/'";

展开
收起
真的很搞笑 2024-05-16 14:08:41 61 0
1 条回答
写回答
取消 提交回答
  • cpu:0有问题,你先把cpu搞成500 ,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2024-05-16 15:09:52
    赞同 2 展开评论 打赏

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载