在ModelScope中,阿里后台的文本转语音都是毫秒级别的,有没有什么好的解决方案?

在ModelScope中,阿里后台的文本转语音都是毫秒级别的,有没有什么好的解决方案?

展开
收起
LLLA 2023-09-19 21:29:25 81 分享 版权
1 条回答
写回答
取消 提交回答
  • 首先vocoder可以转成onnx然后转tensorrt,然后am部分因为是动态的,不能一次性导出onnx,其内部有自回归结构,gpu推理性能提升有限,这里建议使用cpp部分改写性能瓶颈的模块优化推理功能。此回答来自“魔搭ModelScope开发者联盟群 ①”

    2023-09-19 22:58:04
    赞同 展开评论

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

热门讨论

热门文章

还有其他疑问?
咨询AI助理