开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI 我确保没有空值后,报的错误 FAILED: 为什么?

机器学习PAI 我确保没有空值后,报的错误
FAILED: Failed 20231115073834570gt8kpa11w_db136f28_fa93_4d1d_9ad5_d5d6dd4f780e:ODPS-1202005:Algo Job Failed-User Error-Tensorflow script runs failed with exit code: 123, please see the details in logview.
The tail contents of the stderr file:
teratorGetNext[output_shapes=[[?,1], , , , , [?], [?], [?], [?], [?,1], , , [?]], output_types=DT_FLOAT, DT_VARIANT, DT_VARIANT, DT_VARIANT, DT_VARIANT, DT_STRING, DT_STRING, DT_STRING, DT_STRING, DT_FLOAT, DT_VARIANT, DT_VARIANT, DT_INT32], _device="/job:worker/replica:0/task:0/device:CPU:0"]]
[[{{node pc_log_times_diff_ss_raw_proj_id_weighted_by_pc_log_times_diff_ss_raw_proj_val_embedding/pc_log_times_diff_ss_raw_proj_id_weighted_by_pc_log_times_diff_ss_raw_proj_val_embedding_weights/embedding_lookup_sparse/Unique_S563}} = _Recvclient_terminated=false, recv_device="/job:ps/replica:0/task:0/device:CPU:0", send_device="/job:worker/replica:0/task:0/device:CPU:0", send_device_incarnation=-41487250130682641, tensor_name="edge_857_p...rse/Unique", tensor_type=DT_INT64, _device="/job:ps/replica:0/task:0/device:CPU:0"]]

日志:
http://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=b_risk_dev&i=20231115073834570gt8kpa11w_db136f28_fa93_4d1d_9ad5_d5d6dd4f780e&token=NWwrUnVPcjNRTUhaK0FCQlpaakpXVDFUMks0PSxPRFBTX09CTzoxNDk2MzI3NTcyMDcyNzY0LDE3MDI2MjU5MTUseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL2Jfcmlza19kZXYvaW5zdGFuY2VzLzIwMjMxMTE1MDczODM0NTcwZ3Q4a3BhMTF3X2RiMTM2ZjI4X2ZhOTNfNGQxZF85YWQ1X2Q1ZDZkZDRmNzgwZSJdfV0sIlZlcnNpb24iOiIxIn0=

展开
收起
cuicuicuic 2023-11-19 15:08:04 44 0
3 条回答
写回答
取消 提交回答
  • 从日志中可以看出,Tensorflow脚本运行失败,退出代码为123。这可能是由于某些输入数据的问题导致的。为了解决这个问题,你可以尝试以下方法:

    1. 检查输入数据是否正确。确保没有空值或缺失值。如果有问题,请修复它们。

    2. 检查模型的输入和输出是否匹配。确保模型期望的输入形状和类型与实际输入数据相匹配。

    3. 在Tensorflow脚本中添加错误处理和日志记录。这将帮助你更好地了解问题所在,并找到解决方案。例如,你可以使用tf.debugging模块来捕获和记录运行时错误。

    4. 如果可能的话,尝试在不同的环境中运行你的代码,以排除环境问题。例如,尝试在本地计算机上运行Tensorflow脚本,而不是在PAI集群上运行。

    2023-11-29 16:07:20
    赞同 展开评论 打赏
  • https://easyrec.readthedocs.io/en/latest/feature/feature.html#sequencefeature同一个 group 内的序列特征需等长:fd2927037d6b72f3b8e02ba3c94fdbad.png
    fd2927037d6b72f3b8e02ba3c94fdbad.png
    ,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-11-19 23:21:07
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 PAI 上运行 TensorFlow 脚本失败,并收到错误信息“ODPS-1202005”,这可能是由于存在未定义的张量或变量引起的。在这种情况下,您需要检查脚本中的张量和变量定义是否正确,并确认它们的维度是否匹配。
    首先,您可以查看报错信息中的节点名称和位置来找出潜在问题,例如

    • Unique_S563 张量的维度为 (?, ?, ?),可能与上游操作中的输出形状不匹配。
    • /job:worker/replica:0/task:0/device:CPU:0 或者 /job:ps/replica:0/task:0/device:CPU:0,这是脚本中的设备标识符,可以用来定位问题。

    其次,您可以检查张量和变量的初始化方式,确认它们是否正确地设置了正确的维度,并且与其他张量相匹配。
    此外,您还可以检查输入和输出的数据格式是否正确,以及是否有正确地设置 batch_size 和 epochs 等参数。

    2023-11-19 15:26:26
    赞同 展开评论 打赏

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载