ModelScope中语音合成200字左右需要 10几秒的合成时间是正常的吗?正常合成40秒的音频 大概多久呢?有没有可能模型改成流式的呢 ?
第一次比较慢,可以多试试。rtf应该大概0.5左右(40s的话,大概20s左右),但是有可能有其他原因影响,demoservice主要还是体验效果用的。模型支持流式,但是相关推理代码需要做修改,demoservice暂时不会支持流式,demoservice这个只是用于体验。如果是其他目的使用的话,可以访问阿里云官网使用智能语音交互中的语音合成产品。此答案整理自钉钉群“ModelScope开发者联盟群 ①”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。