ModelScope报错，麻烦看下？

"ModelScope报错，麻烦看下？
{
""detail"": ""Graph execution error:\n\nDetected at node 'tower_0/Facebox/RDCL/init_conv1/Conv2D' defined at (most recent call last):\nNode: 'tower_0/Facebox/RDCL/init_conv1/Conv2D'\nDetected at node 'tower_0/Facebox/RDCL/init_conv1/Conv2D' defined at (most recent call last):\nNode: 'tower_0/Facebox/RDCL/init_conv1/Conv2D'\n2 root error(s) found.\n (0) UNIMPLEMENTED: DNN library is not found.\n\t [[{{node tower_0/Facebox/RDCL/init_conv1/Conv2D}}]]\n\t [[tower_0/nms/map/while/Identity/_30]]\n (1) UNIMPLEMENTED: DNN library is not found.\n\t [[{{node tower_0/Facebox/RDCL/init_conv1/Conv2D}}]]\n0 successful operations.\n0 derived errors ignored.\n\nOriginal stack trace for 'tower_0/Facebox/RDCL/init_conv1/Conv2D':\n"",
""code"": 10010203001,
""computation_time"": """",
""data"": null,
""id"": ""6f50e6c8-c555-4ff0-ba51-324be2284992"",
""msg"": ""当前模型测试火爆，请稍后重试"",
""queue"": 0,
""queue_time"": 0,
""status"": 3
}"

展开

收起

小小爱吃香菜 2024-01-31 19:00:31 130 版权

阿里云 AI 助理回答

根据您提供的报错信息，以下是问题的详细分析和解决方案：

问题分析

报错信息中提到的关键错误为： 1. UNIMPLEMENTED: DNN library is not found
这表明在执行模型推理时，系统未能找到所需的深度神经网络（DNN）库。这通常与运行环境的配置或依赖项缺失有关。

Graph execution error
报错发生在节点 tower_0/Facebox/RDCL/init_conv1/Conv2D，说明模型在尝试执行卷积操作时失败。
当前模型测试火爆，请稍后重试
这可能是由于服务端资源不足或并发请求过多导致的临时性问题。

结合以上信息，问题可能由以下原因引起： - 运行环境未正确配置：缺少必要的DNN库或相关依赖。 - 硬件加速器不可用：例如GPU驱动或CUDA库未正确安装。 - 服务端资源限制：高并发请求可能导致服务暂时不可用。

解决方案

1. 检查运行环境配置

确保部署环境中已正确安装并配置了所有必要的依赖项，包括但不限于： - DNN库：如TensorFlow、PyTorch等框架所需的底层库。 - 硬件加速支持：如果使用GPU，需确认CUDA和cuDNN库已正确安装，并且GPU驱动版本与框架兼容。

操作步骤： - 检查是否安装了DNN库：

pip list | grep tensorflow
pip list | grep torch

验证CUDA和cuDNN版本：

nvcc --version
cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

如果发现缺失或版本不匹配，请参考官方文档重新安装。

2. 确认模型部署方式

如果您是通过阿里云EAS部署ModelScope模型，请检查以下内容： - 实例规格：对于大语言对话模型或需要GPU加速的模型，推荐选择支持GPU的实例规格（如ml.gu7i.c16m60.1-gu30）。 - 镜像配置：确保使用的镜像包含所有必要的依赖项。如果使用自定义镜像，请确认镜像中已预装DNN库。

操作步骤： 1. 登录PAI控制台，进入EAS页面。 2. 检查目标服务的资源配置，确保选择了正确的实例规格和镜像。 3. 如果需要修改配置，点击“编辑服务”，更新资源配置后重新部署。

3. 处理服务端资源限制

报错信息中提到“当前模型测试火爆，请稍后重试”，这表明服务端可能存在资源瓶颈。建议采取以下措施： - 降低请求频率：避免短时间内发送大量请求，合理控制并发量。 - 联系技术支持：如果问题持续存在，建议提交工单联系阿里云技术支持，说明具体问题和报错信息。

4. 调试和验证

在完成上述配置后，可以通过以下方式验证服务是否正常： - WebUI调用：登录EAS控制台，查看目标服务的Web应用，直接测试模型功能。 - API接口调用：使用Python代码发送POST请求，验证服务是否可用。示例代码如下：

import requests
import json

service_url = 'YOUR_SERVICE_URL'
token = 'YOUR_SERVICE_TOKEN'

request = {"prompt": "测试输入", "history": []}
resp = requests.post(service_url, headers={"Authorization": token}, data=json.dumps(request))
result = json.loads(resp.text)
print(result)