备案控制台

开发者社区 ModelScope模型即服务语音正文

可以提供微调阶段的训练集吗？

想训一个自定义唤醒词，想要用样例的数据集一起训练

展开

收起

CTC语音唤醒-移动端-单麦-16k-小云小云

Chin2018 2023-06-12 11:18:10 197 版权

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

自行录制音频。您可以使用专业的麦克风和录音软件来录制自己的声音，并创建一个包含多个唤醒词的音频数据集。确保您的录音设备和环境都是稳定的，以获得高质量的音频数据。

下载开放数据集。有些组织和个人会在互联网上共享一些开放的语音数据集，例如 Common Voice 和 VoxCeleb。您可以搜索并下载这些数据集，并从中选择一些与您的应用场景相关的音频数据。

使用语音合成技术生成音频数据。您可以使用 TTS 技术来生成人工合成的唤醒词。例如，您可以使用 Tacotron、WaveNet 或其他开源 TTS 模型来生成语音数据。然后，您可以使用音频编辑软件对生成的音频进行微调和优化。

2023-07-10 08:51:32

赞同展开评论

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83619

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3688

1

0

sql server的用户名和密码怎么查啊？

37495

21

0

重启Docker后报错：Error response from daemon

2281

0

0

this xml file does not appear to have any style in

51847

10

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60915

32

0

OSS的endpoint如何查看

37481

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3640

1

0

阿里云服务器如何重置系统？

24714

4

0

LoRa的网络覆盖能力范围是怎么样的？

3140

1

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

相关文章

免费版的配音软件，支持童声男声女声不同声音选项，语音转文字软件推荐支持多种声音

【语音识别】基于K近邻分类算法的语音情感识别（Matlab代码实现）

面向能效和低延迟的语音控制智能家居：离线语音识别与物联网集成方案——论文阅读

基于MFCC（梅尔频率倒谱系数）和GMM（高斯混合模型）的语音识别

小结

热门讨论

热门文章

关于 Windows平台上 ttsfrd 库的问题。

modelscope上跑报错，提示要pip install ttsfrd，搞不定

使用SambertHifigan个性化语音合成-中文-预训练-16k生成的声音怎么调节语速呢？

No module named 'ttsfrd'

目录空间都删的只剩2G了，还报OSError: [Errno 122] Disk quota exc

模型训练速度太慢

KeyError: 'asr-inference is not in the pipelines r

在Windows平台上关于 ModelScorpe Audio 安装涉及 kwsbp 的问题

SambertHifigan个性化语音合成-中文-预训练-16k 语速太快了怎么设置慢一点

语音合成speech_sambert-hifigan_tts_zh-cn_16k模型没有使用gpu

展开全部

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

展开全部

还有其他疑问?