开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI在这个镜像中或以找到GPU,export出一个镜像, 然后镜像就会出问题, 什么原因?

机器学习PAI在这个镜像中或以找到GPU, registry.cn-shanghai.aliyuncs.com/myjktest/deeprec:deeprec2302-gpu-py38-cu116-ubuntu20.04-hupu, 但是这个镜像太大, 我将bazel cache 删除了, export出一个镜像, 然后那个镜像就会出问题, 这是什么原因呢?

展开
收起
冰激凌甜筒 2023-05-04 19:33:06 280 0
2 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    可能的原因是您在创建新的镜像时,未将 CUDA 和 cuDNN 等 GPU 相关软件重新安装和配置,导致新的镜像中缺少 GPU 相关文件,无法正常识别 GPU。

    解决此问题,您可以尝试在创建新的镜像时,确保重新安装和配置 CUDA 和 cuDNN 等 GPU 相关软件,并更新相关环境变量等配置。具体步骤如下:

    1. 使用原始镜像

    重新使用原始的镜像,确保其中所有的 GPU 相关软件和配置都完整无缺。您可以直接在原始镜像中进行程序开发和训练等工作,或者将原始镜像作为基础镜像,在其中进行必要的安装和配置。

    1. 安装 CUDA 和 cuDNN

    您需要在新的镜像中重新安装 CUDA 和 cuDNN 等 GPU 相关软件,并配置环境变量等相关配置。

    1. 更新镜像配置

    更新新的镜像配置,并在其中设置正确的环境变量、安装必要的软件等,并确保 GPU 相关文件已正确安装和配置。

    1. 检查 GPU 相关配置

    检查您的新镜像中是否正确安装和配置了 CUDA 和 cuDNN 等 GPU 相关软件。在您的新镜像中运行 GPU 相关程序时,应该能够正确识别 GPU 并正常工作。

    2023-05-04 22:31:09
    赞同 展开评论 打赏
  • 如果用来release的镜像,最好是以base镜像安装whl的流程,dev镜像里安装了太多东西,不适合直接作为上线跑任务使用的镜像 如果用来release的镜像,最好是以base镜像安装whl的流程,dev镜像里安装了太多东西,不适合直接作为上线跑任务使用的镜像,此回答整理自钉群“DeepRec用户群”

    2023-05-04 20:06:46
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载