机器学习PAI ODPS的PAI使用训练好的DSSM模型使用同样的ckpt进行evaluate,单个worker多次evaluate的结果都不一致并且recall_at_k指标差别比较大,有结论吗?
对于AI ODPS的PAI使用训练好的DSSM模型使用同样的ckpt进行evaluate,单个worker多次evaluate的结果都不一致并且recall_at_k指标差别比较大的情况,这可能是由于以下几个原因导致的:
随机性:一些深度学习模型的训练过程可能会受到随机性的影响,比如随机初始化、随机梯度下降等。这可能会导致不同的训练结果。
评估方法:Recall@K是一种常用的推荐系统评估指标,它计算的是在所有正样本中,排在K个候选物中的正样本的比例。这个比例会受到排序算法的影响,如果排序算法不稳定,可能会导致Recall@K的结果不稳定。
数据分布:如果你的数据集存在一定的噪声或者分布不均匀,也可能会导致评估结果的不稳定。
模型复杂度:一些复杂的模型,比如深度神经网络,可能会出现过拟合的情况,这也可能会导致评估结果的不稳定。
建议你可以在训练和评估的过程中,增加一些稳定性控制的策略,比如使用相同的随机种子、使用更稳定的排序算法、对数据进行预处理等。同时,也可以考虑使用一些其他的评估指标,比如准确率、F1分数等,来更全面地评估模型的性能。
根据已知信息,单个worker多次评估的结果不一致且recall_at_k指标差异较大可能是由于模型评估过程中存在一些随机性导致的。建议进一步分析模型评估的具体流程和参数设置,以找出导致结果差异的原因,并进行调整或改进。可以尝试指定不同的model_dir路径和checkpoint路径来观察结果是否稳定一致,同时检查训练和评估的参数配置是否一致,比如worker节点数量和资源配置,以及其他依赖表的配置。如果以上方法仍无法解决问题,可能需要进一步检查模型训练的稳定性和模型本身的问题。,此回答整理自钉群“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。