备案控制台

开发者社区 ModelScope模型即服务正文

对自己训练的模型，KAN-TTS, 按如下的SSML格式设置语速，但不起作用，为什么？

from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

from modelscope.models.audio.tts import SambertHifigan
import os
import time

2023-11-02 08-58-47 的屏幕截图.png

model_dir = "/home/gpu/KAN-TTS/pretrain_work_dir/"

custom_infer_abs = {
'voice_name':
'F7',
'am_ckpt':
os.path.join(model_dir, 'tmp_am', 'ckpt'),
'am_config':
os.path.join(model_dir, 'tmp_am', 'config.yaml'),
'voc_ckpt':
os.path.join(model_dir, 'orig_model', 'basemodel_16k', 'hifigan', 'ckpt'),
'voc_config':
os.path.join(model_dir, 'orig_model', 'basemodel_16k', 'hifigan',
'config.yaml'),
'audio_config':
os.path.join(model_dir, 'data', 'audio_config.yaml'),
'se_file':
os.path.join(model_dir, 'data', 'se', 'se.npy')
}
kwargs = {'custom_ckpt': custom_infer_abs}

model_id = SambertHifigan(os.path.join(model_dir, "orig_model"), **kwargs)

sambert_hifigan_tts = pipeline(task=Tasks.text_to_speech, model=model_id)

output = sambert_hifigan_tts(input=text)

wav = output[OutputKeys.OUTPUT_WAV]

with open('output.wav', 'wb') as f:
f.write(wav)

========================>
尝试用

2023-11-02 08-58-47 的屏幕截图.png
2023-11-02 09-02-05 的屏幕截图.png
2023-11-02 09-02-25 的屏幕截图.png
2023-11-02 09-02-38 的屏幕截图.png

不知道为什么，KAN-TTS，按如上SSML格式，设置了不同的语速,得到的语速是一样的。与不设置rate参数得到的，语速没有区别。用Audacity看时长也一致 (pretrain_work_dir中是自己训练的模型，听声音内容是正确的)。

展开

收起

1610484634552160 2023-11-02 09:21:30 368 版权

2 条回答

写回答

取消提交回答

游客zx55y6qz2wku4

您好，请问语速这个问题，您解决了吗？

2024-05-17 14:29:33

赞同展开评论
游客3lk66ynjz4vbu

你的kan-tts是自己训练的么?英文的发音怎么样你觉得欧克吗？我自己训练的但是英文发音不太好

2023-11-07 14:04:59

赞同展开评论

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83501

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3616

1

0

sql server的用户名和密码怎么查啊？

37446

21

0

this xml file does not appear to have any style in

51783

10

0

重启Docker后报错：Error response from daemon

2235

0

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60877

32

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3605

1

0

OSS的endpoint如何查看

37451

6

0

阿里云服务器如何重置系统？

24694

4

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

133453

28

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

相关文章

阿里云服务器最新收费价格表：含年付、月付及小时计费标准

阿里云服务器最新优惠价格表：含 ECS、轻量、GPU 配置及收费标准

阿里云轻量应用服务器、ECS 云服务器、GPU 服务器收费标准最新整理2026

阿里云服务器租用费用：最新价格整理，38元一年起

热门讨论

热门文章

ModelScope中，模型下载默认路径在哪个路径？

我希望通过damo-YOLO训练1500*1500的图片

dataset的版本问题导致与modelscope不兼容

ModelScope下载速度慢怎么解决？

ModelScope中apikey在哪申请？

com/action/joingroup?code=v1是什么意思

关于模型的下载，huggingface下载速度太慢，如何在modelscope快速下载？

如何下载modelscope模型？

在ModelScope中，下载模型时的ssl问题怎么解决？!

ModelScope qwen7b、14b、72b lora微调分别需要的显存和cpu内存是多少？

展开全部

Z-Image：冲击体验上限的下一代图像生成模型

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Meta SAM3开源：让图像分割，听懂你的话

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Meta SAM3开源：让图像分割，听懂你的话

一文读懂“大语言模型”

展开全部

还有其他疑问?