在阿里函数计算中,为什么部署失败了?

在阿里函数计算中,为什么部署失败了?9b9d9901b13f595ea5aa156af6ffeadf.png

展开
收起
小小鹿鹿鹿 2023-11-06 18:16:36 62 分享 版权
阿里云 AI 助理回答

在阿里云函数计算中,部署失败可能由多种原因引起。以下是根据知识库资料总结的常见问题及其解决方案:


1. 模型相关问题

1.1 未上传模型或模型后缀错误

  • 现象
    • 报错信息:Can't run without a checkpoint. Find and place a .ckpt or .safetensors file into any of those locations. The program will exit.Function instance health check failed on port 7860 in 120 seconds.
  • 原因
    • 部署完成后未上传模型文件。
    • 模型文件后缀不是.ckpt(例如从HuggingFace下载的模型后缀可能是.txt)。
  • 解决方案
    • 确保上传了正确的模型文件,并检查文件后缀是否为.ckpt
    • 如果模型后缀不正确,手动修改为.ckpt

1.2 模型拉取失败

  • 现象
    • 部署过程中提示模型拉取失败。
  • 原因
    • 当前地域的GPU显卡资源不足。
  • 解决方案
    • 更换地域进行重试,建议选择靠近用户所在区域的地域。

2. 账户欠费问题

  • 现象
    • 报错信息:{"ErrorCode":"InvalidArgument","ErrorMessage":"Mount NFS:xxxxx-jlb79.cn-hangzhou.nas.aliyuncs.com:/fc-stable-diffusion-plus command failed with output = mount.nfs: Connection reset by peer\n, please make sure that the nas mount point address is correct and is accessible from the service VPC"}
  • 原因
    • 账户存在欠费,导致NAS文件系统挂载失败。
  • 解决方案
    • 充值账户,确保账户余额充足后重试。

3. 隐藏目录问题

  • 现象
    • 应用启动失败,无明确报错信息。
  • 原因
    • 模型文件所在的目录下存在隐藏目录(如.kodbox-1.35.031),干扰了应用的正常启动。
  • 解决方案
    1. 登录函数实例,进入模型文件所在目录(如/mnt/auto/sd)。
    2. 执行命令ls -a查看是否存在隐藏目录。
    3. 如果存在隐藏目录,执行rm -rf <隐藏目录名>删除隐藏目录。
    4. 重新安装应用并重启服务。

4. KodBox页面未关闭

  • 现象
    • 报错信息:Stable diffusion model failed to load, exiting
  • 原因
    • KodBox页面未关闭,可能导致Stable Diffusion服务启动失败。
  • 解决方案
    • 确保至少上传了一个符合要求的模型文件。
    • 关闭KodBox页面后再启动Stable Diffusion服务。

5. 依赖安装问题

  • 现象
    • 函数运行时出现依赖缺失或运行失败。
  • 原因
    • 在Windows或macOS系统上安装依赖时,可能包含与Linux环境不兼容的二进制文件。
  • 解决方案
    • 使用WebIDEServerless Devs工具打包依赖,确保依赖与函数计算的Linux运行环境兼容。
    • 推荐使用官方公共层或在线构建依赖层。

6. 流水线配置问题

  • 现象
    • 应用首次部署失败,流水线执行异常。
  • 原因
    • 流水线配置不正确,导致构建或部署任务失败。
  • 解决方案
    1. 修改流水线的YAML文件,确保以下内容正确配置:
      • 初始化Serverless Devs工具并拉取代码。
      • 指定构建工具版本。
      • 配置OSS缓存路径以加速构建。
      • 使用正确的构建命令生成code.zip包。
    2. 保存修改后重新触发流水线。

7. 网络访问问题

  • 现象
    • 安装自定义节点或依赖时,访问境外网站(如GitHub、HuggingFace)速度慢或失败。
  • 原因
    • 网络连接不稳定或受限。
  • 解决方案
    • 使用国内镜像源加速依赖下载。例如,编辑pip.conf文件,设置镜像源为阿里云:
    [global]
    index-url = http://mirrors.aliyun.com/pypi/simple/
    [install]
    trusted-host = https://mirrors.aliyun.com
    

8. 其他注意事项

  • 重要提醒
    • Serverless环境下,所有改动不会持久化,需将文件存储到NAS中以实现持久化。
    • 如果使用闲置预留模式(极速模式),注意预置快照费用和按量计费的转换规则。

通过以上分析,您可以根据具体的报错信息定位问题并采取相应的解决措施。如果问题仍未解决,请参考相关文档或联系技术支持获取进一步帮助。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

快速交付实现商业价值。

还有其他疑问?
咨询AI助理