开发者社区> 问答> 正文

AIGC中有sd服务又报错,如下 疑似莫名其妙 掉驱动?对 A100的机器 , 感觉是 宿主机?

AIGC中有sd服务又报错,如下 RuntimeError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check

疑似莫名其妙 掉驱动?对 A100的机器 , 感觉是 宿主机 本身的问题 ,同步已提交 工单系统

展开
收起
真的很搞笑 2023-07-05 10:30:42 191 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    可能存在以下原因导致AIGC中的SD(Speech Denoising)服务报错:

    驱动问题:如果您使用的是A100 GPU,可能存在与驱动有关的问题。建议您检查驱动程序是否正确安装并与硬件兼容。您可以参考A100 GPU的官方文档和驱动程序安装指南,以便更好地解决问题。

    宿主机问题:如果您在使用AIGC中的SD服务时,存在宿主机问题,也可能导致SD服务报错。建议您检查宿主机的硬件和软件环境是否符合要求,并确保宿主机的网络连接稳定和正常。

    其他问题:如果以上两个原因都不是问题的根源,可能存在其他未知的问题。建议您在查看AIGC的日志和错误信息时,仔细分析和排除问题,并可以通过阿里云技术支持获得更多帮助和支持。

    2023-07-30 22:21:57
    赞同 展开评论 打赏
  • 根据你提供的报错信息 "RuntimeError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check",这个错误通常表示在 AIGC(AI 通用计算)中使用 sd(深度学习框架)时,Torch 没有能够使用 GPU。

    该错误可能由以下原因之一引起:

    1. 缺少 GPU 支持:确保你的 AIGC 实例配置了正确的 GPU 资源并分配给了对应的任务。如果没有为实例分配 GPU 资源,Torch 将无法使用 GPU 进行计算。你可以检查 AIGC 实例的配置和资源分配,以确保 GPU 可用。

    2. CUDA 驱动问题:Torch 使用 CUDA 驱动来与 GPU 进行通信。请确保你的 AIGC 实例上安装了正确版本的 CUDA 驱动,并且驱动已经成功加载。你可以检查 CUDA 驱动的安装和配置情况,确保它与 Torch 版本兼容。

    3. 环境变量配置问题:在启动 Torch 时,需要正确设置环境变量来启用 GPU 支持。你可以检查环境变量的设置是否正确,并确保在运行 Torch 时传递了正确的命令行参数。

    针对这个错误,建议你按照以下步骤进行排查和解决:

    1. 确认你的 AIGC 实例配置了正确的 GPU 资源,并已正确分配给任务。
    2. 检查 CUDA 驱动的安装和配置情况,确保与 Torch 版本兼容。
    3. 确认环境变量设置正确,并尝试在运行 Torch 时添加 --skip-torch-cuda-test 命令行参数来禁用 GPU 检查。
    2023-07-05 13:13:51
    赞同 展开评论 打赏
  • 是的,看起来是驱动或者gpu卡出错,A100机器?,此回答整理自钉群“AIGC方案-阿里云支持群”

    2023-07-05 10:45:44
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
新一代AIGC图像应用 在零售行业的实践成果 立即下载
云原生场景下, AIGC模型服务的工程挑战和应对 立即下载
关于《探索AIGC下的软件工程新范式》的联合声明 立即下载