开发者社区 ModelScope模型即服务正文

modelscope-funasr这个是配置问题吗？

用的paraformae 语音转写换了一台服务器相同的显卡，但是处理速度慢了一倍，还有gpu只看到内存加载了，但是好像用的是cpu运算的， modelscope-funasr这个是配置问题吗？

展开

收起

嘟嘟嘟嘟嘟嘟 2023-12-20 08:22:29 117 版权

阿里云 AI 助理回答

根据您描述的问题，服务器更换后处理速度变慢了一倍，并且GPU仅加载了内存但似乎未参与运算，这可能与配置或环境设置有关。以下是针对问题的详细分析和解决方案：

1. 性能差异的原因分析

两台服务器虽然显卡相同，但可能存在以下导致性能差异的因素： - 系统环境差异：新服务器的操作系统、驱动版本或CUDA/cuDNN库版本可能与旧服务器不同，影响了GPU的正常调用。 - 内核安全缓解措施：如果新服务器使用的是AMD CPU实例，更新GuestOS内核后可能启用了SRSO漏洞修复的安全缓解措施，这会导致性能下降。 - 性能测试工具验证：建议使用阿里云的性能测试服务（PTS）对两台服务器进行基准测试，确保运行环境一致并定位性能瓶颈。

2. GPU未参与运算的可能原因

从您的描述来看，GPU仅加载了内存但未参与实际计算，可能是以下原因之一： - 模型未正确配置为使用GPU：modelscope-funasr可能默认使用CPU进行推理。需要检查代码中是否明确指定了GPU设备。 - CUDA环境问题：新服务器可能缺少正确的CUDA驱动或cuDNN库，导致模型无法调用GPU。 - 资源分配问题：GPU资源可能被其他进程占用，或者显存不足导致模型回退到CPU计算。

3. 解决方案

步骤一：检查系统环境

确认驱动和库版本：
- 检查新服务器的NVIDIA驱动版本是否与旧服务器一致。
- 确保安装了与模型兼容的CUDA和cuDNN版本。
- 使用以下命令查看GPU状态：
```
nvidia-smi
```
  如果未显示GPU信息，说明驱动未正确安装或GPU不可用。
检查内核安全缓解措施（适用于AMD CPU实例）：
- 执行以下命令查看是否启用了SRSO安全缓解措施：
```
grep . /sys/devices/system/cpu/vulnerabilities/*
```
- 如果启用了SafeRET，可以通过以下命令关闭：
```
sudo grubby --update-kernel=ALL --args="spec_rstack_overflow=off"
sudo reboot
```

步骤二：验证模型配置

检查代码中是否指定GPU：
- 在modelscope-funasr中，确保代码中明确指定了GPU设备。例如：
```
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
```
- 如果未指定设备，默认会使用CPU。
验证GPU是否被调用：
- 在代码运行时，使用以下命令监控GPU使用情况：
```
watch -n 1 nvidia-smi
```
- 如果GPU利用率始终为0，说明模型未正确调用GPU。

步骤三：优化性能

升级实例规格：
- 如果业务对计算资源要求较高，可以考虑升级实例规格以提高性能。
- 对于GPU实例，选择更高性能的规格族（如gn/vgn/sgn系列），以满足深度学习任务的需求。
排查异常进程：
- 检查是否有其他进程占用了大量CPU或GPU资源，导致性能下降。
- 使用以下命令查看资源占用情况：
```
top
htop
```

4. 常见问题排查

虚拟内存不足：如果新服务器的内存不足，可能导致系统频繁使用交换空间，从而降低性能。可以通过以下命令检查内存使用情况：
```
free -h
```
如果内存使用率过高，建议优化业务逻辑或升级实例规格。
SSH连接延迟：如果通过SSH登录服务器时速度较慢，可能是UseDNS特性导致。可以禁用该特性以提升连接速度。