机器学习PAI在这个镜像中或以找到GPU, registry.cn-shanghai.aliyuncs.com/myjktest/deeprec:deeprec2302-gpu-py38-cu116-ubuntu20.04-hupu, 但是这个镜像太大, 我将bazel cache 删除了, export出一个镜像, 然后那个镜像就会出问题, 这是什么原因呢?
可能的原因是您在创建新的镜像时,未将 CUDA 和 cuDNN 等 GPU 相关软件重新安装和配置,导致新的镜像中缺少 GPU 相关文件,无法正常识别 GPU。
解决此问题,您可以尝试在创建新的镜像时,确保重新安装和配置 CUDA 和 cuDNN 等 GPU 相关软件,并更新相关环境变量等配置。具体步骤如下:
重新使用原始的镜像,确保其中所有的 GPU 相关软件和配置都完整无缺。您可以直接在原始镜像中进行程序开发和训练等工作,或者将原始镜像作为基础镜像,在其中进行必要的安装和配置。
您需要在新的镜像中重新安装 CUDA 和 cuDNN 等 GPU 相关软件,并配置环境变量等相关配置。
更新新的镜像配置,并在其中设置正确的环境变量、安装必要的软件等,并确保 GPU 相关文件已正确安装和配置。
检查您的新镜像中是否正确安装和配置了 CUDA 和 cuDNN 等 GPU 相关软件。在您的新镜像中运行 GPU 相关程序时,应该能够正确识别 GPU 并正常工作。
如果用来release的镜像,最好是以base镜像安装whl的流程,dev镜像里安装了太多东西,不适合直接作为上线跑任务使用的镜像 如果用来release的镜像,最好是以base镜像安装whl的流程,dev镜像里安装了太多东西,不适合直接作为上线跑任务使用的镜像,此回答整理自钉群“DeepRec用户群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。