备案控制台

开发者社区 > ModelScope模型即服务 > 语音 > 正文

SambertHifigan个性化语音合成-中文-预训练-16k 语速太快了怎么设置慢一点

samberthifigan

展开

收起

SambertHifigan个性化语音合成-中文-预训练-16k

aliyun4656377768-21770 2023-08-02 12:04:50 1042 0

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

在SamBertHiFiGAN个性化语音合成模型中，您可以通过设置语速控制参数来调整合成语音的速度。语速控制参数可以通过修改模型的输入特征来实现，从而影响模型的输出结果。

具体而言，在使用SamBertHiFiGAN模型进行语音合成时，您可以将输入特征中的帧长（frame_length）和帧移（frame_shift）设置为较大的值，从而降低语音合成的速度。帧长和帧移是语音信号处理中的两个重要参数，它们决定了语音信号的分帧和重叠方式，从而影响模型的输入特征。

以下是一个示例代码，展示如何通过修改帧长和帧移来控制语速：

python
Copy
import soundfile as sf

from transformers import Wav2Vec2Processor, HubertModel

processor = Wav2Vec2Processor.from_pretrained("sambert/wav2vec2-large-xlsr-53-chinese-zh-cn")
model = HubertModel.from_pretrained("sambert/hubert-large-xlsr-53-chinese-zh-cn")

设置帧长和帧移

frame_length = 0.05 # 单位为秒
frame_shift = 0.025 # 单位为秒

audio, _ = sf.read("input.wav") # 读取输入语音文件
input_values = processor(audio, sampling_rate=16000, return_tensors="pt").input_values
output = model(input_values, input_lengths=torch.LongTensor([len(input_values)]),
frame_lengths=torch.LongTensor([int(frame_length 16000)]),
frame_shifts=torch.LongTensor([int(frame_shift 16000)]))
output_audio = output[0].detach().numpy()[0]
sf.write("output.wav", output_audio, 16000) # 保存输出语音文件
在上述代码中，我们使用了Wav2Vec2Processor和HubertModel来进行语音转换。我们通过修改frame_length和frame_shift参数来控制语速，其中frame_length表示帧长，frame_shift表示帧移，单位均为秒。将这两个参数设置为较大的值，可以降低语音合成的速度，从而让合成语音变慢。

2023-08-03 23:19:58

赞同展开评论打赏

相关问答

请问modelscope的samberthifigan语音合成多人预训练24K，要怎么更换发音人？

64

1

0

TTS模型：SambertHifigan个性化语音合成-中文-预训练-16k 报错

321

5

0

ModelScope“个性化语音合成”，怎么设置语速？

139

1

0

SambertHifigan个性化语音合成-中文-预训练执行基于PTTS-basemodel微调报错

443

3

0

阿里云语音AI TTS中cosyvoice大模型流式语音合成在并发的情况下，可共用一个token吗？

176

2

0

在阿里语音AI中，使用流式文本语音合成，运行后如何保持长连接避免10秒后被自动断开连接？

111

1

0

如何使用阿里云的语音合成服务(TTS)将文本转换为语音？

935

1

0

阿里云语音AI语音合成语音识别私有化部署如何操作？

57

0

0

阿里云语音AI 语音合成CosyVoice大模型支持流式输出吗？

241

1

0

在阿里云语音AI中有实时语音合成的python代码吗？

79

3

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

热门讨论

热门文章

modelscope上跑报错，提示要pip install ttsfrd，搞不定

关于 Windows平台上 ttsfrd 库的问题。

No module named 'ttsfrd'

KeyError: 'asr-inference is not in the pipelines r

PyTorch Transformer 英中翻译超详细教程

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

Paraformer语音识别-中文-通用-16k-离线-large-长音频版，无网络时无法使用如何处

modelscope 更新指定版本

ttsfrd 是不开源的吗

用python实现语音端点检测(Voice Activity Detection,VAD)

展开全部

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

KAN-TTS 在 conda 环境下无法安装 ttsfrd

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

展开全部

相关课程

更多

个性化语音合成模型微调

256

1

去学习

达摩院智能语音交互 - 语音合成技术

585

4

去学习

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载