文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

第二次modelscope-funasr调用的时候，明显变慢了，而且 cpu 消耗变大了，怎么回事？

我在 GPU 上用了 AutoModel，发现同一个音频，第二次modelscope-funasr调用的时候，明显变慢了，而且 cpu 消耗变大了，怎么回事？

展开

收起

三分钟热度的鱼 2024-05-05 14:32:58 525 版权

阿里云 AI 助理回答

在使用 AutoModel 调用 modelscope-funasr 时，如果发现第二次调用同一个音频时速度变慢且 CPU 消耗增加，可能与以下几个因素有关：

1. 模型缓存机制的影响

在第一次加载模型时，modelscope-funasr 可能会将模型文件读取到内存中，并生成一些中间缓存数据（如哈希值计算等）。这些操作可能会导致后续调用时的性能变化。
如果模型文件较大，或者存储介质的性能较低（如 NAS 或 OSS），则首次加载和后续加载的性能差异会更加明显。
解决方法：
- 确保模型文件存储在高性能存储介质上（如本地 SSD）。
- 预热模型缓存：在正式推理前，先对模型进行一次完整的加载和推理，以确保缓存已就绪。

2. GPU 显存管理问题

如果 GPU 显存未被正确释放或管理，可能导致第二次调用时显存不足，从而回退到 CPU 进行部分计算。这种情况下，CPU 的消耗会显著增加。
可能原因：
- 模型未正确释放显存资源。
- 共享 GPU 调度策略未启用显存隔离，导致其他任务占用了显存资源。
解决方法：
- 检查是否启用了显存隔离功能。可以通过设置环境变量 ALIYUN_COM_GPU_MEM_CONTAINER 和 ALIYUN_COM_GPU_MEM_DEV 来限制每个容器的显存使用量^[6]</>。
- 在每次调用后，显式释放模型占用的显存资源。例如，在 PyTorch 中可以使用以下代码：
```
import torch
torch.cuda.empty_cache()
```

3. 共享 GPU 调度的影响

如果您的 GPU 实例启用了共享 GPU 调度（如阿里云 cGPU 技术），但未正确配置隔离策略，则可能导致多个任务之间的资源争抢，进而影响性能。
可能原因：
- 多个 Pod 或任务共享同一块 GPU，但未启用显存隔离。
- GPU 算力分配不均，导致某些任务占用过多资源。
解决方法：
- 确保为当前任务分配了足够的显存和算力资源。可以通过 Kubernetes 标签 ack.node.gpu.schedule=egpu_mem 启用显存隔离^[6]</>。
- 如果任务对 GPU 资源需求较高，建议使用独占 GPU 调度模式。

4. 模型推理过程中的 I/O 开销

如果音频文件存储在远程存储（如 NAS 或 OSS）上，第二次调用时可能会因为 I/O 性能瓶颈导致延迟增加。
可能原因：
- 第二次调用时，系统可能重新读取音频文件，而未利用本地缓存。
- 存储介质的性能不足，导致读取速度下降。
解决方法：
- 将音频文件预加载到本地存储中，避免重复的远程 I/O 操作。
- 使用支持 PageCache 的存储方案（如本地磁盘或高性能 NAS），以加速文件读取^[3]</>。

5. CPU 和 GPU 协同工作的问题

在某些情况下，模型推理可能需要 CPU 和 GPU 协同工作。如果 GPU 资源不足，部分计算任务会被回退到 CPU 上执行，从而导致 CPU 消耗增加。
可能原因：
- GPU 显存不足，导致部分张量计算回退到 CPU。
- 模型推理过程中存在大量的数据预处理或后处理操作，这些操作通常由 CPU 完成。
解决方法：
- 确保 GPU 显存充足，并优化数据预处理流程。
- 使用更高效的音频处理库（如 torchaudio 或 librosa），以减少 CPU 的负担。

6. 其他潜在问题

驱动版本不匹配：如果 GPU 驱动版本与 CUDA 版本不兼容，可能导致性能下降。请确保安装了正确的驱动版本（如 Tesla 驱动或 GRID 驱动）

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

相关问答

modelscope-funasr有没有配置项可以设置cpu大小？

716

13

0

modelscope-funasr在windows(cpu)上跑要多大的内存?

326

0

0

ModelScope为啥使用notebook的cpu版本，finetune.sh脚本去训练一直失败？

323

1

0

modelscope-funasr这里怎么写死cpu？

348

1

0

modelscope-funasr最新的gpu高吞吐服务用的模型和原来cpu的参数量是一样的么？

395

0

0

modelscope-funasr最新的gpu高吞吐服务用的模型和原来cpu的是一样的么？

269

0

0

ModelScope中示例页面的GPU版本和CPU版本。这两个不同版本会影响推理效率吗？

319

1

0

在modelscope-funasr中最windows 上跑一点开始，cpu就一直100%如何解决？

235

0

0

在modelscope-funasr中想问下只跑cpu，本地录音文件转文本，需要什么配置的服务器呀？

260

0

0

s工具的CPU和内存规格现在能在yaml文件里面配置直接部署了？

1207

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

HAMi - Kubernetes GPU 共享部署与使用手册

幂等性在大模型服务中的核心应用：解决重复请求、重复扣费与重复推理问题.171

跨境AI算力合规，我是怎么从来数加工转向Token调度的

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

热门讨论

热门文章

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

modelscope-funasr 热词如何设置？

如何下载llama模型到本地？

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

部署funasr-sdk-cpu-0.4.7，无法切换vad为8k模型，提示不存在v2.0.6版本

modelscope-funasr针对默认参数CHUNK_SIZE=[5,10,5]，怎么办？

在modelscope-funasr为啥把语音模型下载到本地，调用识别出的文本为啥会乱码？

gpt3,加载数据时，MsDataset.load报错

modelscope-funasr这个长音频版本，我生成的还是没有标点，为什么？

modelscope-funasr的asr，itn，标点这几个模块串起来的例子有吗，流式运行？

展开全部

分层结构化决策对话智能体灵钥 V5.1 全新升级｜具备观点边界、关系感知的深度思辨 Agent，配套线上 Demo 与真实用户数据采集方案

告别单轮静态测评！WorldForge 多动态环境基准，量化 Agent 组件协同能力

语义压缩，才是提示词工程的底层心法

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

从零搓一个语言模型，然后把它变成认知体的声带

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

Yuxi-Know：开源智能问答系统，基于大模型RAG与知识图谱技术快速构建知识库

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

展开全部

还有其他疑问?