问题一:图形训练预测遇到了一些错误
这是组件的运行日志后半部分
2023-12-01 09:40:00,746 INFO: dlc endpoint pai-dlc.cn-shenzhen.aliyuncs.com
2023-12-01 09:40:00,748 INFO: input artifact input_table value is None
2023-12-01 09:40:00,748 INFO: input artifact input_pose_detection_model_path value is None
2023-12-01 09:40:00,779 INFO: Workspace list_features result: ['PaiDLC:IntegrateWithWorkspace']
2023-12-01 09:40:01,447 INFO: DLC job url: https://pai.console.aliyun.com/?regionId=cn-shenzhen&workspaceId=34471#/job/detail?jobId=dlc1ulv3lx1i7wmw
2023-12-01 09:40:01,702 INFO: job status: Creating
2023-12-01 09:40:16,960 INFO: job status: Failed
2023-12-01 09:40:16,962 INFO: input artifact input_table value is None
2023-12-01 09:40:16,962 INFO: input artifact input_pose_detection_model_path value is None
2023-12-01 09:40:17,003 INFO: Initialize DlcJobHelper from context: region_id=cn-shenzhen workspace_id=34471 is_use_workspace=True
2023-12-01 09:40:17,003 INFO: delete dataset using workspace service api
2023-12-01 09:40:17,208 INFO: delete data source: d-hkz9gro543u1x8i3ku
2023-12-01 09:40:17,209 INFO: input artifact input_table value is None
2023-12-01 09:40:17,209 INFO: input artifact input_pose_detection_model_path value is None
2023-12-01 09:40:17,242 INFO: Initialize DlcJobHelper from context: region_id=cn-shenzhen workspace_id=34471 is_use_workspace=True
2023-12-01 09:40:17,242 INFO: delete dataset using workspace service api
2023-12-01 09:40:17,443 INFO: delete data source: d-2a1agl03244fe6x59y
组件是通用图像预测easycv,上游组件是读取oss数据和图像检测训练easycv,
前几次测试的时候还可以调用起dlc到runing,后面就知道一下creating就出现failed了
参考答案:
根据提供的日志信息,可以看出组件在运行过程中出现了创建失败的情况。具体原因可能与以下几个因素有关:
- 输入数据问题:日志中显示
input_table
和input_pose_detection_model_path
的值都为None
。这可能是由于上游组件没有正确传递这些输入数据导致的。请检查上游组件是否正确读取了OSS数据和图像检测模型,并将它们传递给当前组件。 - 资源限制:日志中还显示了作业状态为
Failed
,这可能是因为系统资源不足导致作业无法正常创建。请检查系统资源使用情况,如CPU、内存等,并确保它们满足组件的运行需求。 - 网络问题:日志中还显示了与阿里云相关的一些信息,如DLC(Deep Learning Compute)服务端点、工作空间等。如果网络连接存在问题,可能会导致作业创建失败。请检查网络连接是否正常,并确保可以访问到阿里云的相关服务。
- 配置问题:日志中还显示了一些初始化和删除数据集的操作。如果配置不正确,可能会导致作业创建失败。请检查相关配置是否正确,并确保它们符合预期的要求。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/574166
问题二:机器学习PAI报一个问题:我DSSM负采样版本,请问这个问题咱们有碰到过吗?
机器学习PAI报一个问题:我DSSM负采样版本,user tower输入两个特征:gender(F, M, UNKNOWN,共3种)与age_level([1, 17], [18, 24], ..., UNKOWN,共11种),item tower一个特征:item_id。我们输入数据都提前补好了缺失值,gender的hash_bucket_size设的200(unique value有3个),age_level的hash_bucket_size设为300。我们预期上user tower产生33种不同的user embedding,但是实际上有一些样本attr被hash到同一个bucket里去了,只有30种不同的user embedding,导致他们虽然feature不同但是embedding相同,请问这个问题咱们有碰到过吗?
看上图,gender一样age_level不一样,但是embedding一样,看起来是age_level被hash到同一个bucket了
参考答案:
确实是一样的,这种取值有限的,要么用个vocab_dict或者EmbeddingVariable好了 可以防止冲突,或者干脆设置的大一些,比如1000
这说明,大多数未知年龄的,都把他当做25-29 的年龄来处理(应该出现概率高)。看起来也有道理啊,
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573260
问题三:请教下机器学习PAI现在GPU用不了可能是什么问题呢?
请教下机器学习PAI现在GPU用不了可能是什么问题呢?
参考答案:
上面好像都是要10.0,下面我看是10.1
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573257
问题四:机器学习PAI正在等待在云端的gateway资源 为啥一直在等待 gateway 资源啊?
机器学习PAI正在等待在云端的gateway资源 为啥一直在等待 gateway 资源啊?
参考答案:
机器学习PAI在等待云端的gateway资源可能是因为需要进行模型加载、数据预处理等操作。这个过程可能需要一些时间来准备所需的资源,因此需要等待一段时间。可以耐心等待一段时间,如果还不行的话,检查网络连接是否正常,以及阿里云账户是否有足够的资源来支持相关操作。
详细可以看看EAS常见问题:https://help.aliyun.com/zh/pai/support/faq-about-eas
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/573256
问题五:机器学习PAI为什么 easyrec 打分会失败啊?
机器学习PAI为什么 easyrec 打分会失败啊?
用的是 mmoe 的模型,也不知道咋回事。
参考答案:
看最后一行的日志,已经提示了,输出没有写对
关于本问题的更多回答可点击进行查看: