开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI遇到个问题需要帮忙解答,运行过程中遇到如下错误?

机器学习PAI遇到个问题需要帮忙解答,我的配置文件设置了early_stop,模型是mmoe,在各个tower中设置评估指标为auc和gauc,但是运行过程中遇到如下错误:5698b97924f8d8c8acc60fc5e2f34cd4.png
补充一下,eval_results对应的是:

{
1000: {
"auc_ctr_tower": 1.0,
"auc_cvr_tower": 1.0,
"gauc_ctr_tower": 1.0,
"gauc_cvr_tower": 1.0,
"loss": 0.005554337985813618,
"loss/loss/cross_entropy_loss_ctr_tower": 0.0026337471790611744,
"loss/loss/cross_entropy_loss_cvr_tower": 0.0029205905739217997,
"loss/loss/total_loss": 0.005554337985813618
}
}

展开
收起
真的很搞笑 2023-12-10 15:39:48 65 0
2 条回答
写回答
取消 提交回答
  • 这个问题可能是由于在计算AUC和GAUC时出现了一些问题。AUC(Area Under Curve)和GAUC(Group Area Under Curve)都是用于评估分类模型性能的指标,它们都是在ROC曲线(Receiver Operating Characteristic curve)的基础上计算的。

    在你的配置文件中,你设置了early_stop,这意味着当验证集上的性能不再提高时,训练过程将会提前停止。然而,这可能会导致在计算AUC和GAUC时出现一些问题,因为在训练的最后阶段,模型的性能可能已经下降,但这并不会触发early_stop

    为了解决这个问题,你可以尝试以下两种方法:

    1. 取消early_stop的设置,让模型完整地训练到最后。
    2. 在计算AUC和GAUC时,添加一些额外的检查,确保模型的性能是在提高的。例如,你可以在计算AUC和GAUC之前,先检查一下模型在验证集上的损失是否在降低。
    2023-12-13 09:01:19
    赞同 展开评论 打赏
  • https://easyrec.readthedocs.io/en/latest/export.html
    设置一下这个参数:best_exporter_metric: "auc_ctr_tower" 试一下看看 ,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-12-11 13:06:08
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载