机器学习PAI EAS 服务器器报错,GPU一直跑满是什么原因?

机器学习PAI EAS 服务器器报错,GPU一直跑满是什么原因?requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(104, 'Connection reset by peer'))

展开
收起
真的很搞笑 2023-08-01 12:39:59 200 分享 版权
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    当您在机器学习PAI EAS服务器上使用GPU时,如果GPU一直处于满载状态并且出现了连接错误,可以有几种可能的原因:

    资源竞争:如果在服务器上同时有其他用户或进程正在使用GPU资源,可能会导致GPU被持续占用,从而导致其他请求无法获得GPU资源。这可能会导致连接错误。您可以尝试等待一段时间,以便其他进程释放GPU资源,或者联系系统管理员以获取更多关于资源使用情况的信息。

    连接问题:连接错误可能是由于网络连接不稳定或中断导致的。这可能是临时的问题,您可以尝试重新发送请求,或检查网络连接是否正常。

    服务器问题:连接错误也可能是由于服务器端出现问题导致的,例如服务器负载过高、服务崩溃或其他故障。这种情况下,您可以联系系统管理员或技术支持团队,报告问题并获取进一步的帮助。

    2023-08-04 21:42:43
    赞同 展开评论

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

还有其他疑问?
咨询AI助理