开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI执行Alink的job时,报错?

展开
收起
cuicuicuic 2024-03-21 07:45:13 30 0
3 条回答
写回答
取消 提交回答
  • 这个问题可能是由于网络连接问题导致的。您可以尝试以下方法解决:

    1. 检查您的网络连接是否正常,确保您可以访问 https://alink-release.oss-cn-beijing.aliyuncs.com/deps-files/resources/libtorch_linux-1.8.1/libtorch-shared-with-deps-1.8.1-cpu.zip 这个链接。

    2. 如果网络连接正常,您可以尝试手动下载该文件,并将其放到指定的插件路径下。然后再次运行Alink的job。

    3. 如果上述方法仍然无法解决问题,您可以尝试使用其他版本的libtorch,或者联系阿里云的技术支持寻求帮助。

    2024-03-31 22:21:22
    赞同 展开评论 打赏
  • 您遇到的错误提示表明,机器学习平台PAI在执行Alink的job时,试图从指定的URL下载libtorch-shared-with-deps-1.8.1-cpu.zip文件,但是没有成功。尽管您已经使用AlinkGlobalConfiguration.setPluginDir()方法指定了插件路径,并且该路径下存在对应的文件,但平台可能仍然尝试从远程URL获取文件。

    以下是您可以尝试的几个解决步骤:

    1. 检查网络连接
      确保您的PAI执行环境能够访问互联网,并且没有防火墙或网络策略阻止了对https://alink-release.oss-cn-beijing.aliyuncs.com的访问。

    2. 检查配置文件
      检查您的Alink配置文件或PAI的Job配置,确保没有地方硬编码了远程URL,并且确实使用了您通过AlinkGlobalConfiguration.setPluginDir()设置的本地路径。

    3. 确保文件完整性和路径正确
      确认您本地的libtorch-shared-with-deps-1.8.1-cpu.zip文件是完整且未损坏的。同时,确保指定的插件路径是PAI执行Job时能够访问到的路径。

    4. 检查PAI和Alink版本兼容性
      确保您使用的PAI和Alink版本是兼容的,并且支持您想要使用的功能。如果版本不匹配,可能会导致一些意外的行为。

    5. 查看PAI或Alink文档和社区
      查阅PAI和Alink的官方文档,看看是否有关于如何配置本地插件或解决下载问题的说明。同时,也可以在相关的开发者社区或论坛中搜索是否有其他用户遇到过类似问题,并找到了解决方案。

    6. 联系技术支持
      如果以上步骤都无法解决问题,您可能需要联系PAI或Alink的技术支持,寻求专业的帮助。

    7. 考虑使用本地构建
      如果远程下载始终是一个问题,您还可以考虑从源代码本地构建Alink,这样您就可以完全控制所需的依赖项和它们的来源。

    2024-03-23 18:26:09
    赞同 展开评论 打赏
  • 针对Alink在PAI上执行时下载依赖库失败的问题,先确认网络是否正常,能否访问指定的OSS地址。检查所设置的AlinkGlobalConfiguration.setPluginDir()路径下是否包含了正确的libtorch库文件及其完整目录结构。若问题依然存在,可能需要检查是否有权限问题或者尝试重新下载依赖库文件到正确的位置。如果所有操作均无误,建议联系阿里云PAI团队寻求专业技术支持。

    2024-03-22 15:16:13
    赞同 1 展开评论 打赏

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载