机器学习PAI export模型时,第三步一直卡在waiting状态,是什么问题?也不报参数错误。
集群好像没有资源了,你把这个任务的cpu 减少一点重跑一下吧,export任务比较轻量,不需要那么多cpu
memory也适当减少,此回答整理自钉群“【EasyRec】推荐算法交流群”
服务状态在部署阶段后会进入到Waiting(等待中)状态,等待资源调度和服务实例启动,当所有服务实例均启动成功后,服务会进入到Running(运行中)状态,而服务长时间处于等待中时通常可以通过在服务详情页面的服务实例列表中查看服务实例的状态来定位具体原因,原因一般分为如下两类:
资源不足:服务实例列表中所有实例或部分实例状态为Pending。
此时大多为专属资源组中空闲资源不足,导致实例无法调度。如下图:
此时,可检查资源组中的机器节点是否有足够多的空闲资源(包括CPU、Memory和GPU),如果一个实例需要3核4 GB的资源,那在资源组中需要至少一个机器节点有3核4 GB的空闲资源。
重要
注意:节点需要预留1个核给系统组件避免在高负载时出现系统故障,能调度的资源需要在总资源上减少一个核。
资源组节点列表如下图所示:
实例健康检查未完成:服务实例状态为Running,但容器状态一般为 [0/1]或 [1/2]。
正斜线(/)前面的数字表示启动成功的容器数量,正斜线(/)后面的数字表示总的容器数量。当您使用自定义镜像来部署服务时,实例中会自动注入一个Sidecar容器用于服务的流量控制与监控采集等工作,您无需关心该容器,在控制台会看到总容器数量为2,即包含了用户的自定义容器和引擎的Sidecar容器。此时需要2个容器状态都为Ready服务实例才算启动完成,流量才会打到该实例中来。
---来自人工智能平台PAIEAS常见问题
当在机器学习 PAI 中进行模型导出时,第三步卡在 "waiting" 状态可能有以下几个原因:
资源限制:导出模型可能需要消耗较多的计算资源,包括 CPU、内存和存储等。如果当前可用的资源不足以完成导出操作,系统可能会将其置于等待状态。请确保您分配给任务的资源满足导出的需求,尤其是内存和存储空间。
依赖库或环境问题:模型导出可能涉及特定的依赖库或软件包。如果这些依赖库未正确安装或与环境不兼容,导出过程可能会遇到问题并无法继续进行。请确认所需的依赖库已正确安装,并且与导出模型所使用的版本匹配。
网络问题:在导出模型期间,数据需要从输入源传输到输出目标。如果网络连接存在问题或不稳定,导致数据传输失败或超时,导出过程可能会被阻塞在 "waiting" 状态。请确保您的网络连接正常并稳定,以便顺利执行导出操作。
数据量大:如果要导出的模型包含大量数据或参数,导出过程可能需要更长的时间来完成。在此情况下,耐心等待一段时间,让系统能够处理和导出模型。请注意,导出过程的持续时间与模型大小、数据量和计算资源有关。
如果导出过程一直停留在 "waiting" 状态,并且没有明确的错误提示,建议进行以下操作:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。