机器学习PAI遇到个问题需要帮忙解答,我的配置文件设置了early_stop,模型是mmoe,在各个tower中设置评估指标为auc和gauc,但是运行过程中遇到如下错误:
补充一下,eval_results对应的是:
{
1000: {
"auc_ctr_tower": 1.0,
"auc_cvr_tower": 1.0,
"gauc_ctr_tower": 1.0,
"gauc_cvr_tower": 1.0,
"loss": 0.005554337985813618,
"loss/loss/cross_entropy_loss_ctr_tower": 0.0026337471790611744,
"loss/loss/cross_entropy_loss_cvr_tower": 0.0029205905739217997,
"loss/loss/total_loss": 0.005554337985813618
}
}
这个问题可能是由于在计算AUC和GAUC时出现了一些问题。AUC(Area Under Curve)和GAUC(Group Area Under Curve)都是用于评估分类模型性能的指标,它们都是在ROC曲线(Receiver Operating Characteristic curve)的基础上计算的。
在你的配置文件中,你设置了early_stop
,这意味着当验证集上的性能不再提高时,训练过程将会提前停止。然而,这可能会导致在计算AUC和GAUC时出现一些问题,因为在训练的最后阶段,模型的性能可能已经下降,但这并不会触发early_stop
。
为了解决这个问题,你可以尝试以下两种方法:
early_stop
的设置,让模型完整地训练到最后。https://easyrec.readthedocs.io/en/latest/export.html
设置一下这个参数:best_exporter_metric: "auc_ctr_tower" 试一下看看 ,此回答整理自钉群“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。