热门
在ModelScope中,阿里后台的文本转语音都是毫秒级别的,有没有什么好的解决方案?
首先vocoder可以转成onnx然后转tensorrt,然后am部分因为是动态的,不能一次性导出onnx,其内部有自回归结构,gpu推理性能提升有限,这里建议使用cpp部分改写性能瓶颈的模块优化推理功能。此回答来自“魔搭ModelScope开发者联盟群 ①”
包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域