开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI easyrec在odps做训练,第一次训练4000steps,这个是为什么?

机器学习PAI easyrec在odps做训练,第一次训练4000steps,之后提高steps数做继续训练的时候,发现evaluator的那个worker只评估到4000就结束了,但是训练的worker还在继续跑,这个是为什么?7e9a5b633daec99dfb130fea186ce29a.png
a97fc46f01472c5dec44bb0cb560a64b.png
1a2144876f58c11f4b7daf5291b3938e.png

展开
收起
真的很搞笑 2023-10-29 20:04:46 74 0
2 条回答
写回答
取消 提交回答
  • 这个问题可能是由于EasyRec的训练过程设计导致的。EasyRec的训练过程分为两个阶段:初始化阶段和优化阶段。在初始化阶段,模型会进行前4000步的训练,然后进入优化阶段,继续进行更多的训练。

    然而,Evaluator的工作是在每个epoch结束时进行的,也就是在每个优化阶段的末尾。因此,如果我们在优化阶段开始时停止了Evaluator,那么它只会评估到初始化阶段结束的地方,也就是4000步。

    解决这个问题的方法是在每个epoch结束时重新启动Evaluator,或者在每个epoch开始时停止旧的Evaluator并启动新的Evaluator。具体的实现方式取决于你的具体需求和使用的环境。

    2023-10-30 11:43:03
    赞同 展开评论 打赏
  • 如果在同一目录跑的话,会生成一个标识结束的文件:ESTIMATOR_TRAIN_DONE ,如果存在就会退出,现在需要你先手动删除一下。这个后续我们看一下是不是可以在代码改成自动删除来修复一下这个问题。,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-10-30 08:04:12
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载