开发者社区 问答 正文

实时长文本语音AI合成响应时间要20多秒,这个有什么方法优化的吗?

实时长文本语音AI合成响应时间要20多秒,这个有什么方法优化的吗?

展开
收起
鸡蛋灌饼儿 2023-01-10 19:04:21 415 分享 版权
1 条回答
写回答
取消 提交回答
  • 语音合成的实时率与模型算法的复杂度有关。最快的模型1秒内可合成33秒音频,最慢的模型1秒内可合成0.7秒的音频。普通音色和精品音色的时延不同,算法效果越好的音色相对来说耗时更长。建议使用流式合成机制,也就是边接收服务端返回的合成数据,边保存或者播放,可以显著改善语音合成问题。

    2023-01-11 10:49:08
    赞同 展开评论
问答分类:
问答地址: