人工智能平台PAI 操作报错合集之DSSM负采样时，输入数据不同，被哈希到同一个桶里，导致生成的embedding相同如何解决-阿里云开发者社区

人工智能平台PAI 操作报错合集之DSSM负采样时，输入数据不同，被哈希到同一个桶里，导致生成的embedding相同如何解决

2024-04-28 141

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

简介： 阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台，旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时，可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

问题一：图形训练预测遇到了一些错误

这是组件的运行日志后半部分

2023-12-01 09:40:00,746 INFO: dlc endpoint pai-dlc.cn-shenzhen.aliyuncs.com

2023-12-01 09:40:00,748 INFO: input artifact input_table value is None

2023-12-01 09:40:00,748 INFO: input artifact input_pose_detection_model_path value is None

2023-12-01 09:40:00,779 INFO: Workspace list_features result: ['PaiDLC:IntegrateWithWorkspace']

2023-12-01 09:40:01,447 INFO: DLC job url: https://pai.console.aliyun.com/?regionId=cn-shenzhen&workspaceId=34471#/job/detail?jobId=dlc1ulv3lx1i7wmw

2023-12-01 09:40:01,702 INFO: job status: Creating

2023-12-01 09:40:16,960 INFO: job status: Failed

2023-12-01 09:40:16,962 INFO: input artifact input_table value is None

2023-12-01 09:40:16,962 INFO: input artifact input_pose_detection_model_path value is None

2023-12-01 09:40:17,003 INFO: Initialize DlcJobHelper from context: region_id=cn-shenzhen workspace_id=34471 is_use_workspace=True

2023-12-01 09:40:17,003 INFO: delete dataset using workspace service api

2023-12-01 09:40:17,208 INFO: delete data source: d-hkz9gro543u1x8i3ku

2023-12-01 09:40:17,209 INFO: input artifact input_table value is None

2023-12-01 09:40:17,209 INFO: input artifact input_pose_detection_model_path value is None

2023-12-01 09:40:17,242 INFO: Initialize DlcJobHelper from context: region_id=cn-shenzhen workspace_id=34471 is_use_workspace=True

2023-12-01 09:40:17,242 INFO: delete dataset using workspace service api

2023-12-01 09:40:17,443 INFO: delete data source: d-2a1agl03244fe6x59y

组件是通用图像预测easycv,上游组件是读取oss数据和图像检测训练easycv,

前几次测试的时候还可以调用起dlc到runing,后面就知道一下creating就出现failed了

参考答案：

根据提供的日志信息，可以看出组件在运行过程中出现了创建失败的情况。具体原因可能与以下几个因素有关：

输入数据问题：日志中显示input_table和input_pose_detection_model_path的值都为None。这可能是由于上游组件没有正确传递这些输入数据导致的。请检查上游组件是否正确读取了OSS数据和图像检测模型，并将它们传递给当前组件。
资源限制：日志中还显示了作业状态为Failed，这可能是因为系统资源不足导致作业无法正常创建。请检查系统资源使用情况，如CPU、内存等，并确保它们满足组件的运行需求。
网络问题：日志中还显示了与阿里云相关的一些信息，如DLC（Deep Learning Compute）服务端点、工作空间等。如果网络连接存在问题，可能会导致作业创建失败。请检查网络连接是否正常，并确保可以访问到阿里云的相关服务。
配置问题：日志中还显示了一些初始化和删除数据集的操作。如果配置不正确，可能会导致作业创建失败。请检查相关配置是否正确，并确保它们符合预期的要求。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/574166

问题二：机器学习PAI报一个问题：我DSSM负采样版本，请问这个问题咱们有碰到过吗？

机器学习PAI报一个问题：我DSSM负采样版本，user tower输入两个特征：gender（F, M, UNKNOWN，共3种）与age_level（[1, 17], [18, 24], ..., UNKOWN，共11种），item tower一个特征：item_id。我们输入数据都提前补好了缺失值，gender的hash_bucket_size设的200(unique value有3个)，age_level的hash_bucket_size设为300。我们预期上user tower产生33种不同的user embedding，但是实际上有一些样本attr被hash到同一个bucket里去了，只有30种不同的user embedding，导致他们虽然feature不同但是embedding相同，请问这个问题咱们有碰到过吗？