开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI export模型时,第三步一直卡在waiting状态,是什么问题?

机器学习PAI export模型时,第三步一直卡在waiting状态,是什么问题?也不报参数错误。

展开
收起
真的很搞笑 2023-11-30 11:06:15 43 0
3 条回答
写回答
取消 提交回答
  • 集群好像没有资源了,你把这个任务的cpu 减少一点重跑一下吧,export任务比较轻量,不需要那么多cpu13e4fd3f5beb9206a8983d8f3ea51269.png
    memory也适当减少,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-11-30 20:50:21
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    服务状态在部署阶段后会进入到Waiting(等待中)状态,等待资源调度和服务实例启动,当所有服务实例均启动成功后,服务会进入到Running(运行中)状态,而服务长时间处于等待中时通常可以通过在服务详情页面的服务实例列表中查看服务实例的状态来定位具体原因,原因一般分为如下两类:

    资源不足:服务实例列表中所有实例或部分实例状态为Pending。

    此时大多为专属资源组中空闲资源不足,导致实例无法调度。如下图:image.png

    此时,可检查资源组中的机器节点是否有足够多的空闲资源(包括CPU、Memory和GPU),如果一个实例需要3核4 GB的资源,那在资源组中需要至少一个机器节点有3核4 GB的空闲资源。

    重要
    注意:节点需要预留1个核给系统组件避免在高负载时出现系统故障,能调度的资源需要在总资源上减少一个核。

    资源组节点列表如下图所示:image.png

    实例健康检查未完成:服务实例状态为Running,但容器状态一般为 [0/1]或 [1/2]。

    正斜线(/)前面的数字表示启动成功的容器数量,正斜线(/)后面的数字表示总的容器数量。当您使用自定义镜像来部署服务时,实例中会自动注入一个Sidecar容器用于服务的流量控制与监控采集等工作,您无需关心该容器,在控制台会看到总容器数量为2,即包含了用户的自定义容器和引擎的Sidecar容器。此时需要2个容器状态都为Ready服务实例才算启动完成,流量才会打到该实例中来。image.png
    ---来自人工智能平台PAIEAS常见问题

    2023-11-30 15:44:17
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    当在机器学习 PAI 中进行模型导出时,第三步卡在 "waiting" 状态可能有以下几个原因:

    1. 资源限制:导出模型可能需要消耗较多的计算资源,包括 CPU、内存和存储等。如果当前可用的资源不足以完成导出操作,系统可能会将其置于等待状态。请确保您分配给任务的资源满足导出的需求,尤其是内存和存储空间。

    2. 依赖库或环境问题:模型导出可能涉及特定的依赖库或软件包。如果这些依赖库未正确安装或与环境不兼容,导出过程可能会遇到问题并无法继续进行。请确认所需的依赖库已正确安装,并且与导出模型所使用的版本匹配。

    3. 网络问题:在导出模型期间,数据需要从输入源传输到输出目标。如果网络连接存在问题或不稳定,导致数据传输失败或超时,导出过程可能会被阻塞在 "waiting" 状态。请确保您的网络连接正常并稳定,以便顺利执行导出操作。

    4. 数据量大:如果要导出的模型包含大量数据或参数,导出过程可能需要更长的时间来完成。在此情况下,耐心等待一段时间,让系统能够处理和导出模型。请注意,导出过程的持续时间与模型大小、数据量和计算资源有关。

    如果导出过程一直停留在 "waiting" 状态,并且没有明确的错误提示,建议进行以下操作:

    • 检查任务日志:查看任务的详细日志,以确定是否存在任何错误或警告信息。
    • 联系支持团队:如果您无法解决问题,请联系机器学习 PAI 平台的支持团队或管理员寻求进一步的帮助和指导。
    2023-11-30 14:19:48
    赞同 展开评论 打赏

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载