ModelScope中，我加了export NCCL_P2P_LEVEL=NVL 这句话以后报错？

ModelScope中，我加了export NCCL_P2P_LEVEL=NVL 这句话以后，报了这个错：RuntimeError: CUDA error: device kernel image is invalid
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.这是在1，3卡上跑的

展开

收起

多麻辣哦 2023-11-22 21:02:18 1578 版权

5 条回答

写回答

取消提交回答

sunrr

这个错误可能是由于NCCL_P2P_LEVEL设置不正确导致的。你可以尝试将NCCL_P2P_LEVEL设置为0，然后重新运行程序。如果问题仍然存在，建议检查你的CUDA和PyTorch版本是否兼容。

2023-11-29 10:27:55

赞同展开评论
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
您在使用 ModelScope 中进行 GPU 加速计算时遇到了 CUDA 相关的错误。这个错误可能与 CUDA 的配置或环境变量设置有关。通常情况下，NCCL_P2P_LEVEL 环境变量用于控制 GPU 之间的直接内存访问的级别，但是在某些情况下可能会影响到 CUDA 运行时的行为。

针对您遇到的问题，建议您尝试以下解决方案：
1. 检查环境变量：确保 NCCL_P2P_LEVEL 环境变量的设置是符合您的实际需求的，并且不会影响到 CUDA 运行时的正常行为。
2. 检查 CUDA 配置：确认 CUDA 的安装和配置是否正确，包括驱动程序、CUDA Toolkit 版本等。
3. 检查 GPU 设备：如果报错是在多卡环境下，尝试逐个排查每块 GPU 是否都能正常工作，以确定问题出现在哪一块 GPU 上。
4. 使用 CUDA 工具进行调试：如错误信息中所述，您可以考虑通过设置 CUDA_LAUNCH_BLOCKING=1 来使 CUDA 在错误发生时立即报告，以便更准确地定位问题。
2023-11-28 23:08:00

赞同展开评论
小Lee
这个错误表明您的机器上有两个GPU，其中一个 GPU 没有足够的资源来运行该模型。
要解决这个问题，可以尝试以下方法：
1. 尝试减少模型的大小或者训练时间；
2. 关闭非必要程序释放显存；
3. 调整环境变量 CUDA_VISIBLE_DEVICES 以指定一个可用 GPU；
4. 升级 GPU 版本到最新版本；
5. 如果仍然有问题，请尝试从官方支持渠道寻求帮助。
2023-11-23 16:44:59

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

按照您所述的情况，出现此错误可能是由于NCCL库无法正确初始化造成的。"CUDA error: device kernel image is invalid" 这样的错误通常表明某些硬件或驱动程序有问题，导致运行时无法加载设备上的内核映像。建议您先确保显卡驱动程序和CUDA版本正确，并更新至最新版；另外，可以尝试关闭防火墙及安全软件等，看是否可以解决问题。
此外，也可以尝试使用 "CUDA_LAUNCH_BLOCKING=1" 参数运行代码，以阻止可能出现的问题。这将使 CUDA 在执行任何操作之前等待内核结束执行。

2023-11-23 13:17:21

赞同展开评论
超爱吃辣

scripts / seqgpt 比较小，单卡应该能跑起来，您把几个卡都试一下，看看是否有问题。——此回答整理自钉群：魔搭ModelScope开发者联盟群 ①

2023-11-22 21:49:06

赞同展开评论

ModelScope中，我加了export NCCL_P2P_LEVEL=NVL 这句话以后报错？

计算机视觉

相关文章

热门讨论

热门文章