请问ModelScope合成语音，200字要22秒，正常吗？能优化不？

展开

收起

真的很搞笑 2023-11-15 06:52:10 219 版权

3 条回答

写回答

取消提交回答

ljc1

确实很慢，我的测试情况跟你差不多，gpu是available状态，但实际推理的时候gpu使用率基本没什么波动

2023-12-06 14:28:02

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
ModelScope的语音合成速度取决于多种因素，包括但不限于：
1. 模型架构：不同的模型有不同的复杂性和效率。有些模型可能需要更长的时间来生成一个较长的文本。
2. 硬件资源：推理设备（如CPU或GPU）的性能和可用性也会影响语音合成的速度。
3. 输入文本长度：显然，较短的文本会更快地完成合成。
对于您提到的情况，如果使用ModelScope进行语音合成，将200字的文本转换为语音需要22秒，这似乎比预期要慢一些。通常情况下，合成时间应该在几秒钟内，而不是以分钟计算。以下是一些可能的优化方法：

优化建议
1. 利用GPU加速：
  
  如果当前是在CPU上运行模型，尝试配置ModelScope以使用GPU可以显著提高推理速度。
  GPU专门用于并行处理大量数据，这对于神经网络的计算特别有效。
2. 减少停顿时间：
  
  检查是否可以在句子之间减少停顿时间，或者调整模型设置以减少不必要的暂停。
3. 并行化处理：
  
  如果你的应用支持多进程或多线程，你可以考虑同时处理多个合成任务。
4. 模型优化：
  
  使用更高效的模型版本，如果有可用的话。有时更新的模型会在保持输出质量的同时提高性能。
5. 检查API调用方式：
  
  确保你正在正确地使用ModelScope API，并且没有无意中引入了额外的延迟。
6. 代码优化：
  
  检查你的代码，看看是否有任何可能导致性能瓶颈的部分。
7. 联系ModelScope团队：
  
  如果以上建议都不能解决问题，直接联系ModelScope团队获取技术支持可能是最好的选择。
2023-11-30 23:11:00

赞同展开评论
sunrr

ModelScope合成语音的速度受多种因素影响，例如语音合成模型的大小、使用的推理设备以及推理的并发数等。因此，无法直接判断200字需要22秒是否正常。不过，达摩院已经开源了基于ModelScope的语音合成训练框架KAN-TTS和中文多人预训练模型，开发者可以使用这些工具在小规模数据集上定制自己的语音合成模型。此外，通过调用modelscope.trainers进行微调训练，可以优化pipeline推理速度，显著提升单条音频输入的推理速度。同时，这项语音合成技术背后是达摩院的显式韵律声学模型SAMBERT以及Hifi-GAN声码器的结合，它针对基频（pitch）、能量（energy）和时长（duration）三种韵律表征分别建模。如果你觉得语音合成的速度仍然不满意，可以尝试调整这些参数或者优化你的数据集以提高效果。

2023-11-15 15:02:42

赞同展开评论

请问ModelScope合成语音，200字要22秒，正常吗？能优化不？

优化建议

计算机视觉

相关文章

热门讨论

热门文章