备案控制台

开发者社区 > ModelScope模型即服务 > 语音 > 正文

如何训练出，带情绪控制（sad,happy...）的，自己音色的语音模型?

目前能找到的 speech_sambert-hifigan_tts_zhitian_emo_zh-cn_16k.可以用于推理，但用于在这个基础上进行训练，会报错。

从命名规则上推，能用于训练的，估计应该是
speech_sambert-hifigan_tts_zhitian_emo_zh-cn_pretrain_16k. 但在网上找不到。

谁有speech_sambert-hifigan_tts_zhitian_emo_zh-cn_pretrain_16k.麻烦发给我一下。

展开

收起

1610484634552160 2023-10-31 11:06:13 401 0

2 条回答

写回答

取消提交回答

1610484634552160

有带详细操作步骤的训练示列，可供参考学习吗？

2023-11-01 14:35:24

赞同展开评论打赏
sunrr
要训练一个带有情绪控制的语音模型，您需要以下步骤：
1. 数据准备：收集带有不同情绪标签的语音数据集。确保数据集包含各种情绪的语音样本，如悲伤、快乐等。
2. 数据预处理：对数据集进行预处理，包括去除噪音、标准化音频特征等。
3. 模型选择：选择一个适合的语音生成模型，如WaveNet、Tacotron等。您可以使用开源的语音生成模型作为基础，然后进行修改和训练。
4. 修改模型：根据您想要实现的情绪控制功能，对选定的模型进行修改。例如，您可以添加一个情绪分类器来预测输入文本的情绪，并将其作为条件输入到语音生成模型中。
5. 训练模型：使用准备好的数据集对修改后的模型进行训练。您可以使用随机梯度下降（SGD）或其他优化算法来最小化损失函数。
6. 评估模型：使用测试集评估训练好的模型的性能。您可以计算生成语音与真实语音之间的相似度或其他指标来评估模型的质量。
2023-10-31 13:47:01

赞同展开评论打赏

相关问答

this xml file does not appear to have any style in

30924

8

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

56005

30

0

如果购买了域名，一定要备案才能用吗

36954

36

0

OSS的endpoint如何查看

29855

3

0

办理ICP经营许可证，需要网络接入协议，去哪下载

3503

2

0

com/action/joingroup?code=v1是什么意思

205779

20

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

93166

16

0

配置了安全组规则，端口还是无法访问

27514

21

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

229788

10

0

购买阿里国外的云服务器是否可以访问谷歌？

75622

46

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

热门讨论

热门文章

modelscope上跑报错，提示要pip install ttsfrd，搞不定

关于 Windows平台上 ttsfrd 库的问题。

KeyError: 'asr-inference is not in the pipelines r

ttsfrd 是不开源的吗

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

No module named 'funasr.modules.eend_ola.utils'

No module named 'ttsfrd'

PyTorch Transformer 英中翻译超详细教程

pip安装语音领域模型依赖报错。

在Windows平台上关于 ModelScorpe Audio 安装涉及 kwsbp 的问题

展开全部

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

KAN-TTS 在 conda 环境下无法安装 ttsfrd

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

使用开源的模型（像speech_sambert-hifigan_tts_zhida_zh-cn_16k）进行语音合成任务的推理时，推理速度太慢了，500字大约需要1分钟，为什么会这么慢

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载