文档备案控制台

开发者社区 ModelScope模型即服务语音正文

cpu（gpu）资源消耗过高，无法支撑并发推理

很多训练模型都存在一个问题，就是资源消耗过大，而且无法有效多并发推理，经测试，语音识别和语音合成，多并发情况下（2并发～20并发），随着并发增加，推理耗时就会呈线性趋势增加，比如同等条件下，一个并发耗时400ms，如果并发加到10，单次最大耗时将增加到4秒左右，增加到20并发，则耗时增加到8秒左右，同理语音合成也是一样，当单并发耗时1-2秒，20并发的单次最大耗时将达到40～60秒，请问有什么方式在有限资源情况下优化提高并发量，谢谢

展开

收起

1030541127660846 2022-11-25 16:45:00 1663 版权

1 条回答

写回答

取消提交回答

达摩院智捷

ModelScope主要展示是模型本身，以模型的功能、背后的算法、精度等为主要。您提到的并发问题，实际是将模型变成一个推理服务（通常以API的形式提供）时所要重点考虑的。假设给定模型本身的结构不变，一个好的推理服务就是要能够考虑并发、延迟等成本体验指标。这里有一些通用的手段是一般会考虑的，包括提高单线程效率（例如优化合并模型的图结构，优化向量运算至矩阵预算并使用更好的矩阵库）、充分利用多线程（例如使用线程池来并行处理多并发、分拆模型只读内存和推理中间过程的动态内存）等手段。最极致的优化甚至可以做到手撸AVX intrinsics的地步。阿里云公共云智能语音交互的语音识别、语音合成API，其背后的核心引擎就是用上述这些手段来优化并发的。

2022-11-25 20:36:24

赞同 2 展开评论

相关问答

Funasr GPU2.0.0部署推理，RTF达不到0.0008，连0.0076都达不到。

323

0

0

modelscope-funasr最新的gpu高吞吐服务用的模型和原来cpu的参数量是一样的么？

281

0

0

modelscope-funasr最新的gpu高吞吐服务用的模型和原来cpu的是一样的么？

192

0

0

ModelScope中示例页面的GPU版本和CPU版本。这两个不同版本会影响推理效率吗？

250

1

0

ModelScope没有看见复制，模型选择、cpu/GPU选择有特别要求吗，有详细说明吗？

215

1

0

GPU资源如何计费？如果不调用，会产生费用吗？

395

1

0

modelscope-funasr怎么设置使得模型可以用CUDA0以外的其他gpu？

34061

1

0

在modelscope-funasr如果使用GPU的话这个编译需要改什么？

607

0

0

modelscope-funasr的GPU调用失败了，是什么原因？

193

0

0

modelscope-funasr能支持用gpu来做实时转写吗？

202

0

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

收录在圈子:

智能语音交互

167

+ 订阅

相关文章

养活OpenClaw这只“大龙虾”的是人，是配置，是算力，不是它自己！

阿里云服务器收费价格多少钱1小时？价格查询入口在哪？

阿里云服务器价格查询工具：配置报价器，鼠标选配置支持一键精准报价

阿里云Qwen-QwQ推理模型部署教程——基于函数计算FC的Function AI

写 PyTorch 总像在写脚本？试试 PyTorch Lightning，把模型训练变成“工程化项目”

热门讨论

热门文章

关于 Windows平台上 ttsfrd 库的问题。

modelscope上跑报错，提示要pip install ttsfrd，搞不定

【实战教程】用Pytorch实现Transformer

提供能在其他服务器ubuntu环境下跑通的脚本，亲测有效

iic/speech_sambert-hifigan_tts_zh-cn_16k模型实时合成

SambertHifigan个性化语音合成-中文-预训练-16k 语速太快了怎么设置慢一点

模型如何下载到本地，并通过本地pytorch或tensorflow runtime 运行推理？

魔搭modelscope按官方文档安装音频环境失败

modelscope1.6.1的环境，本地报错似乎提示使用正确 modelscope版本

modelscope报错

展开全部

docker安装部署FunASR

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

展开全部

还有其他疑问?