AIGC训练营中部署Stable Diffusion启动失败原因是什么?

AIGC训练营中部署Stable Diffusion启动失败原因是什么?

展开
收起
真的很搞笑 2023-06-24 16:55:30 144 分享 版权
阿里云 AI 助理回答

在AIGC训练营中部署Stable Diffusion时,启动失败可能由以下原因导致。以下是详细的原因分析及对应的解决方案:


1. 未上传模型或模型后缀错误

  • 问题现象
    • 启动时出现报错信息:
    Can't run without a checkpoint. Find and place a .ckpt or .safetensors file into any of those locations. The program will exit.
    

    Function instance health check failed on port 7860 in 120 seconds.
    
  • 问题原因
    • 没有上传模型文件。
    • 上传的模型文件后缀不是.ckpt.safetensors,例如从HuggingFace下载的模型后缀可能是.txt
  • 解决方案
    • 确保已上传正确的模型文件,并检查文件后缀是否为.ckpt.safetensors
    • 如果模型后缀不正确,需手动修改为.ckpt.safetensors

2. 账户欠费导致NAS挂载失败

  • 问题现象
    • 启动时出现报错信息:
    {"ErrorCode":"InvalidArgument","ErrorMessage":"Mount NFS:xxxxx-jlb79.cn-hangzhou.nas.aliyuncs.com:/fc-stable-diffusion-plus command failed with output = mount.nfs: Connection reset by peer\n, please make sure that the nas mount point address is correct and is accessible from the service VPC"}
    
  • 问题原因
    • 当前账号存在欠费,导致NAS文件系统无法正常挂载。
  • 解决方案
    • 充值账户:确保账户余额充足,待恢复正常后重试启动服务。

3. KodBox页面未关闭

  • 问题现象
    • 启动时出现报错信息:
    Stable diffusion model failed to load, exiting
    
  • 问题原因
    • KodBox页面未关闭,可能会干扰Stable Diffusion服务的启动。
  • 解决方案
    • 确保模型已正确上传后,关闭KodBox页面,然后重新启动Stable Diffusion服务。

4. 模型文件所在目录存在隐藏目录

  • 问题现象
    • 启动时出现报错信息:
    Stable diffusion model failed to load, exiting
    
  • 问题原因
    • 模型文件所在的目录中存在隐藏目录,可能导致加载失败。
  • 解决方案
    • 登录函数实例,进入模型文件所在目录,删除隐藏目录,然后重新安装应用。

5. GPU资源不足

  • 问题现象
    • 首次打开Stable Diffusion WebUI时提示“无法访问此网站”,或者报错:
    Reserve resource exceed limit
    
  • 问题原因
    • 当前部署地域的GPU显卡资源不足。
  • 解决方案
    • 切换到其他地域(如中国内地地域)重新部署应用。

6. 镜像拉取失败或配置错误

  • 问题现象
    • 应用启动失败,且日志显示镜像拉取失败或配置错误。
  • 问题原因
    • 使用的镜像地址不正确,或镜像拉取超时。
  • 解决方案
    • 确保使用的镜像地址与部署地域匹配。如果拉取失败,尝试切换到其他地域重试。

7. 插件安装或配置问题

  • 问题现象
    • 无法在线安装插件,或插件功能异常。
  • 问题原因
    • 容器镜像部署存在安全限制,无法直接在线安装插件。
  • 解决方案
    • 将插件下载到本地,通过管理后台上传到extensions目录。
    • 如果需要通过WebUI界面使用URL安装插件,需自行定制Docker镜像并修改相关参数。

8. LoRA模型未正确上传

  • 问题现象
    • 使用LoRA模型进行推理时,服务启动失败或模型加载失败。
  • 问题原因
    • LoRA模型未上传到指定路径,或上传时机不正确。
  • 解决方案
    • 确保在服务启动成功后,将LoRA模型文件上传到指定路径(如/data-{当前登录用户ID}/models/Lora/models/Lora)。

9. 健康检查失败

  • 问题现象
    • 启动时健康检查失败,Pod状态未变为Running
  • 问题原因
    • 健康检查配置错误,或服务未监听指定端口(如7860)。
  • 解决方案
    • 检查健康检查配置,确保服务监听了正确的端口(如7860),并确认服务启动命令无误。

重要提醒

  • 合法性与合规性:阿里云不对第三方模型的合法性、安全性、准确性提供任何保证。您需自行确保使用模型的合法性和合规性。
  • 费用说明:部署Stable Diffusion会涉及GPU资源、NAS存储等费用,请及时清理不再使用的资源以避免额外计费。

通过以上分析和解决方案,您可以逐一排查并解决Stable Diffusion启动失败的问题。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答