有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!

简介: 有道开源的国产语音库EmotiVoice爆火了!具有情绪控制功能的语音合成引擎!

前不久小圈为大家介绍过 Coqui 文本转语音(Text-to-Speech,TTS) 模型,相比较市面上原有的开源TTS模型,Coqui 有其独特的优势,也受到了广大科技互联网爱好者的青睐。


但是近期,网易有道AI算法团队也开源了一款国产TTS语音合成引擎EmotiVoice,刚上线仅一周时间就暴涨4200颗星,问鼎当周GitHub trending流行榜第一。而如今已冲到了 4.5k Star。

接下面让我们看看这款国产语音库为何如何迅速的火遍大江南北的🔥!


EmotiVoice 项目介绍


EmotiVoice 是一款现代化的开源语音合成引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音


通过官方项目介绍可以了解到,EmotiVoice 最突出的功能是情感合成,允许我们创建多种情感的语音。

这个也是其他TTS开源项目没有提到过的。


开源地址:https://github.com/netease-youdao/EmotiVoice


如何搭建这个 TTS 项目?


1、第一种方法,使用Docker搭建,一键运行


体验 EmotiVoice 最简单的方法就是运行 docker 镜像。但是尽量需要一台配备 NVidia GPU 的机器。

然后使用 docker 命令运行 EmotiVoice:

docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

这样就会在本地起一个http服务,端口为8501,能成功访问即可体验!


2、第二种方式,自己一步步安装


首先创建虚拟环境,安装相关的依赖包

conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

然后下载模型文件,这一步官方也提供了两种方法


模型下载方式1:


安装 git lfs 指令,然后通过lfs命令在开源模型库huggingface,一键下载所有模型文件

git lfs install
git lfs clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

模型下载方式2:


通过下载命令或直接去模型库网站,一个个手动下载

mkdir -p WangZeJun/simbert-base-chinese
wget https://huggingface.co/WangZeJun/simbert-base-chinese/resolve/main/config.json -P WangZeJun/simbert-base-chinese
wget https://huggingface.co/WangZeJun/simbert-base-chinese/resolve/main/pytorch_model.bin -P WangZeJun/simbert-base-chinese
wget https://huggingface.co/WangZeJun/simbert-base-chinese/resolve/main/vocab.txt -P WangZeJun/simbert-base-chinese

下载完三个模型文件后,将其放到对应目录下

g_*, do_* 文件放到outputs/prompt_tts_open_source_joint/ckpt,将checkpoint_*放到outputs/style_encoder/ckpt中。


输入推理文本格式:


说话人|情感样式内容|音素|说话内容

我们可以运行下面这个代码,自动生成推理文本音素(phonemes)

python frontend.py data/my_text.txt > data/my_text_for_tts.txt

新建一个my_text.txt文件,我们在里面输入一个字符,比如:“欢迎来到王者荣耀”。


生成的音素文件my_text_for_tts.txt输出:


然后我们再把说话文本和说话人整合在一起:


最后再执行推理命令:

TEXT=data/inference/text
  python inference_am_vocoder_joint.py \
  --logdir prompt_tts_open_source_joint \
  --config_folder config/joint \
  --checkpoint g_00140000 \
  --test_file $TEXT

合成的语音结果在:outputs/prompt_tts_open_source_joint/test_audio


大家是不是感觉很繁琐,很麻烦,其实还有更简单的方式。我们使用pip命令安装一个streamlit包,然后运行一行命令即可完成上述所有操作。

pip install streamlit
  streamlit run demo_page.py


运行命令后会在本地启动一个http服务,到了这一步就跟docker一键运行一样了。然后我们点击提示的地址打开网页即可看到:

接下来我们就完全可以再页面上愉快的使用TTS功能了,可以自定义选择说话人、情感语气提示词、语音文本及相应的语言(支持中文和英文),然后点击合成即可生成语音文件。


总结


以上就是 EmotiVoice 大概的一个介绍和搭建使用体验。对于我来说还是很新颖的,毕竟之前的TTS产品即不支持中文,也没有一个界面可以操作!EmotiVoice 这点就很友好,很nice辣!


EmotiVoice 以其多声音支持和情感合成能力,在多种应用场景中展现出巨大的潜力。无论是内容创作、个性化服务还是教育培训,EmotiVoice都能提供高质量和高度个性化的语音合成解决方案。

相关文章
|
26天前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
717 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
2月前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
470 3
|
4月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
6月前
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
138 1
|
8月前
|
监控 语音技术 异构计算
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
使用开源的模型(像speech_sambert-hifigan_tts_zhida_zh-cn_16k)进行语音合成任务的推理时,推理速度太慢了,500字大约需要1分钟,为什么会这么慢
598 2
|
人工智能 达摩院 Linux
如何使用ModelScope魔搭开源代码训练一款语音合成模型
如何使用ModelScope魔搭开源代码训练一款语音合成模型
1131 0
|
人工智能 API 语音技术
hexo博客结合百度语音合成为你的博客添加欢迎语音
今晚在知乎和CSDN看文章时都发现了文章有点击即可朗读,将文字转换成语音,虽然机器音很严重,但可以将这个用来做个人博客的一个欢迎语。也就是别人点击你博客进入的时候会自动播放这个欢迎语,有点像是你去商店买东西,迎接你的小姐姐说的“欢迎您光临本
719 0
hexo博客结合百度语音合成为你的博客添加欢迎语音
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
25天前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
80 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
1月前
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
132 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言

热门文章

最新文章