在机器学习PAI里超时限制怎么配置?在session中增加一个timeout配置选项?

在机器学习PAI里超时限制怎么配置?在session中增加一个timeout配置选项?

展开
收起
三分钟热度的鱼 2023-05-14 20:01:49 212 分享 版权
3 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    在阿里云机器学习PAI中,可以通过修改参数配置来控制任务的超时限制,具体步骤如下:

    1. 打开您要修改的任务的详情页面。

    2. 在任务详情页面的右上角,点击“编辑”按钮,进入任务配置页面。

    3. 在任务配置页面中,找到超时设置相关的参数,例如“超时时间(小时)”、“最大重试次数”等等。

    4. 根据任务的具体需求,调整相应的参数配置。

    5. 修改完成后,点击“保存”按钮,将参数配置保存并提交。

    增加一个timeout选项,可以在代码中使用,但这只是一种手动的方法,无法保证对所有情况都起作用。因此,一般还需要通过参数配置来进行全局控制,以保证任务在阿里云机器学习PAI中能够正常运行。

    2023-05-23 13:57:30
    赞同 展开评论
  • 热爱开发

    在机器学习平台PAI中,可以通过在训练脚本中设置timeout参数来配置任务执行的超时限制。

    具体步骤如下:

    在训练脚本中导入signal库,用于向进程发送信号。

    使用signal.alarm()函数设置超时时间,单位为秒。例如,如果您想要将超时时间设置为10分钟,则可以设置signal.alarm(600)。

    监听SIGALRM信号,在接收到该信号时,停止程序执行并抛出异常。您可以使用try/except块来捕获该异常,并在捕获到异常后进行相应处理。

    以下是Python代码示例:

    import signal

    设置超时时间为10分钟

    signal.alarm(600)

    try: # 执行您的任务代码 pass except Exception as e: # 处理异常 pass

    停止alarm定时器

    signal.alarm(0) 注意:请确保在训练脚本中适当地处理超时异常,以避免资源泄漏或其他问题。同时,需要注意的是,timeout参数只会对当前进程生效,不会影响其他进程或资源。

    2023-05-15 15:24:00
    赞同 展开评论
  • 你看下这段代码 tensorflow/core/distributed_runtime/rpc/grpc_remote_master.ccimage.png 此回答整理自钉群“DeepRec用户群”

    2023-05-14 20:21:00
    赞同 展开评论

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

收录在圈子:
还有其他疑问?
咨询AI助理