开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI 我用这样的方式跑多机的resnet_split,两个服务器会卡住?

机器学习PAI 我用这样的方式跑多机的resnet_split,两个服务器会卡住,still waiting的消息也不打印了应该是连接上了但是不继续往下走?b6a06d9847a2b5835ae07aba784e54bc.png
这是服务器1
5ff69e23768d3dfcc3fd9fa0099832ff.png
这是服务器2 这是什么原因?

展开
收起
真的很搞笑 2023-08-08 19:32:38 80 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    可能有几个可能的原因:

    网络通信问题:多机训练涉及服务器之间的网络通信。如果存在网络连接问题,可能导致通信中断或延迟,从而导致任务卡住。您可以检查服务器之间的网络连接是否正常,包括网络配置、防火墙设置等。

    数据同步问题:多机训练通常需要进行数据的同步和交换。如果数据同步过程中出现错误或阻塞,可能导致任务无法继续执行。确保多机训练的数据同步机制正确配置,并且服务器之间可以正确地传输和接收数据。

    并行处理问题:如果任务中存在并行处理的部分,例如使用多个进程或线程进行计算,可能存在并发或同步问题。确保并行处理的代码正确处理并发和同步,避免死锁或卡住的情况。

    日志和错误处理:检查任务的日志和错误输出,确认是否存在任何错误或异常。有时任务可能会因为错误而卡住,而相关的错误信息可能没有被正确记录或打印。确保正确设置日志和错误处理机制,以便及时捕获和处理错误。

    2023-08-13 21:30:01
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载