开发者社区 > ModelScope模型即服务 > 正文

对自己训练的模型,KAN-TTS, 按如下的SSML格式设置语速,但不起作用,为什么?

from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

from modelscope.models.audio.tts import SambertHifigan
import os
import time

2023-11-02 08-58-47 的屏幕截图.png

model_dir = "/home/gpu/KAN-TTS/pretrain_work_dir/"

custom_infer_abs = {
'voice_name':
'F7',
'am_ckpt':
os.path.join(model_dir, 'tmp_am', 'ckpt'),
'am_config':
os.path.join(model_dir, 'tmp_am', 'config.yaml'),
'voc_ckpt':
os.path.join(model_dir, 'orig_model', 'basemodel_16k', 'hifigan', 'ckpt'),
'voc_config':
os.path.join(model_dir, 'orig_model', 'basemodel_16k', 'hifigan',
'config.yaml'),
'audio_config':
os.path.join(model_dir, 'data', 'audio_config.yaml'),
'se_file':
os.path.join(model_dir, 'data', 'se', 'se.npy')
}
kwargs = {'custom_ckpt': custom_infer_abs}

model_id = SambertHifigan(os.path.join(model_dir, "orig_model"), **kwargs)

sambert_hifigan_tts = pipeline(task=Tasks.text_to_speech, model=model_id)

output = sambert_hifigan_tts(input=text)

wav = output[OutputKeys.OUTPUT_WAV]

with open('output.wav', 'wb') as f:
f.write(wav)

========================>
尝试用

2023-11-02 08-58-47 的屏幕截图.png
2023-11-02 09-02-05 的屏幕截图.png
2023-11-02 09-02-25 的屏幕截图.png
2023-11-02 09-02-38 的屏幕截图.png

不知道为什么,KAN-TTS,按如上SSML格式,设置了不同的语速,得到的语速是一样的。与不设置rate参数得到的,语速没有区别。用Audacity看时长也一致 (pretrain_work_dir中是自己训练的模型,听声音内容是正确的)。

展开
收起
1610484634552160 2023-11-02 09:21:30 275 0
2 条回答
写回答
取消 提交回答
  • 您好,请问语速这个问题,您解决了吗?

    2024-05-17 14:29:33
    赞同 展开评论 打赏
  • 你的kan-tts是自己训练的么?英文的发音怎么样你觉得欧克吗?我自己训练的但是英文发音不太好

    2023-11-07 14:04:59
    赞同 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载