5秒实现AI语音克隆(Python)

简介: 推荐一个有趣的AI黑科技--MockingBird,该项目集成了Python开发,语音提取、录制、调试、训练一体化GUI操作,号称只需要你的 5 秒钟的声音,就能实时克隆出你的任意声音

一、实时语音克隆原理简介


该项目实时语音克隆原理基于谷歌2017年发布的论文《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》


技术实现分成三个模块(Encoder、Synthesizer、Vocoder),


  • encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)


  • synthesis 模块将文本转换成梅尔频谱(mel-spectrogram)


  • vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform 先提取说话者的声音提取音色向量(Speaker Encoder部分),然后用这部分内容加上Synthesizer和Vocoder一起完成语音合成。



二、MockingBird项目动手实践


MockingBird项目地址:http://github.com/babysor/MockingBird或者文末阅读原文可以访问


MockingBird的安装比较简单,按说明把Python环境(需要3.7及以上版本)、著名的机器学习框架PyTorch、著名的多媒体处理组件FFmpeg(实测在仅使用简单训练的时候是不需要它的)、pip安装下项目依赖库,再准备预训练模型就差不多了。


2.1 安装要求


>按照原始存储库测试您是否已准备好所有环境。**Python 3.7 或更高版本**需要运行工具箱。 *安装[PyTorch](https://pytorch.org/get-started/locally/)。 >如果在用pip方式安装的时候出现`ERROR:Couldnotfindaversionthatsatisfiestherequirementtorch==1.9.0+cu102(fromversions:0.1.2,0.1.2.post1,0.1.2.post2)`这个错误可能是python版本过低,3.9可以安装成功 *安装[ffmpeg](https://ffmpeg.org/download.html#get-packages)。 *运行`pipinstall-rrequirements.txt`来安装剩余的必要包。 *安装webrtcvad`pipinstallwebrtcvad-wheels`。 ###[](https://github.com/babysor/MockingBird/blob/main/README-CN.md#2-%E5%87%86%E5%A4%87%E9%A2%84%E8%AE%AD%E7%BB%83%E6%A8%A1%E5%9E%8B)2\.准备预训练模型 考虑训练您自己专属的模型或者下载社区他人训练好的模型: >近期创建了[知乎专题](https://www.zhihu.com/column/c_1425605280340504576)将不定期更新炼丹小技巧or心得,也欢迎提问 ####[](https://github.com/babysor/MockingBird/blob/main/README-CN.md#21-%E4%BD%BF%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86%E8%87%AA%E5%B7%B1%E8%AE%AD%E7%BB%83encoder%E6%A8%A1%E5%9E%8B-%E5%8F%AF%E9%80%89)2.1使用数据集自己训练encoder模型(可选) *进行音频和梅尔频谱图预处理:`pythonencoder_preprocess.py<datasets_root>`使用`-d{dataset}`指定数据集,支持librispeech_other,voxceleb1,aidatatang_200zh,使用逗号分割处理多数据集。 *训练encoder:`pythonencoder_train.pymy_run<datasets_root>/SV2TTS/encoder` >训练encoder使用了visdom。你可以加上`-no_visdom`禁用visdom,但是有可视化会更好。在单独的命令行/进程中运行"visdom"来启动visdom服务器。 ####[](https://github.com/babysor/MockingBird/blob/main/README-CN.md#22-%E4%BD%BF%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86%E8%87%AA%E5%B7%B1%E8%AE%AD%E7%BB%83%E5%90%88%E6%88%90%E5%99%A8%E6%A8%A1%E5%9E%8B%E4%B8%8E23%E4%BA%8C%E9%80%89%E4%B8%80)2.2使用数据集自己训练合成器模型(与2.3二选一) *下载数据集并解压:确保您可以访问*train*文件夹中的所有音频文件(如.wav) *进行音频和梅尔频谱图预处理:`pythonpre.py<datasets_root>-d{dataset}-n{number}`可传入参数: *`-d{dataset}`指定数据集,支持aidatatang_200zh,magicdata,aishell3,data_aishell,不传默认为aidatatang_200zh *`-n{number}`指定并行数,CPU11770k+32GB实测10没有问题 >假如你下载的`aidatatang_200zh`文件放在D盘,`train`文件路径为`D:\data\aidatatang_200zh\corpus\train`,你的`datasets_root`就是`D:\data\` *训练合成器:`pythonsynthesizer_train.pymandarin<datasets_root>/SV2TTS/synthesizer` *当您在训练文件夹*synthesizer/saved_models/*中看到注意线显示和损失满足您的需要时,请转到`启动程序`一步。 ####[](https://github.com/babysor/MockingBird/blob/main/README-CN.md#23%E4%BD%BF%E7%94%A8%E7%A4%BE%E5%8C%BA%E9%A2%84%E5%85%88%E8%AE%AD%E7%BB%83%E5%A5%BD%E7%9A%84%E5%90%88%E6%88%90%E5%99%A8%E4%B8%8E22%E4%BA%8C%E9%80%89%E4%B8%80)2.3使用社区预先训练好的合成器(与2.2二选一) >当实在没有设备或者不想慢慢调试,可以使用社区贡献的模型(下载后传入synthesizer/saved_models/): |作者|下载链接|效果预览|信息| |---|---|---|---| |作者|[https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g](https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g)[百度盘链接](https://pan.baidu.com/s/1iONvRxmkI-t1nHqxKytY3g)4j5d||75ksteps用3个开源数据集混合训练| |作者|[https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw](https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw)[百度盘链接](https://pan.baidu.com/s/1fMh9IlgKJlL2PIiRTYDUvw)提取码:om7f || 25k steps 用3个开源数据集混合训练, 切换到tag v0.0.1使用| |@FawenYo|[https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing](https://drive.google.com/file/d/1H-YGOUHpmqKxJ9FRc6vAjPuqQki24UbC/view?usp=sharing)[百度盘链接](https://pan.baidu.com/s/1vSYXO4wsLyjnF3Unl-Xoxg)提取码:1024 |[input](https://github.com/babysor/MockingBird/wiki/audio/self_test.mp3)[output](https://github.com/babysor/MockingBird/wiki/audio/export.wav)|200ksteps台湾口音需切换到tagv0.0.1使用| |@miven|[https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ](https://pan.baidu.com/s/1PI-hM3sn5wbeChRryX-RCQ)提取码:2021 |[https://www.bilibili.com/video/BV1uh411B7AD/](https://www.bilibili.com/video/BV1uh411B7AD/)| 150k steps 注意:根据[issue](https://github.com/babysor/MockingBird/issues/37)修复并切换到tagv0.0.1使用| ####[](https://github.com/babysor/MockingBird/blob/main/README-CN.md#24%E8%AE%AD%E7%BB%83%E5%A3%B0%E7%A0%81%E5%99%A8-%E5%8F%AF%E9%80%89)2.4训练声码器(可选) 对效果影响不大,已经预置3款,如果希望自己训练可以参考以下命令。 *预处理数据:`pythonvocoder_preprocess.py<datasets_root>-m<synthesizer_model_path>` >`<datasets_root>`替换为你的数据集目录,`<synthesizer_model_path>`替换为一个你最好的synthesizer模型目录,例如*sythensizer\saved_mode\xxx* *训练wavernn声码器:`pythonvocoder_train.py<trainid><datasets_root>` >`<trainid>`替换为你想要的标识,同一标识再次训练时会延续原模型 *训练hifigan声码器:`pythonvocoder_train.py<trainid><datasets_root>hifigan` >`<trainid>`替换为你想要的标识,同一标识再次训练时会延续原模型


2.2 启动程序或工具箱


MockingBird在本地提供了一个B/S使用环境,运行python web.py后,用浏览器访问本地8080端口。输入框里的就是要合成的话术,传入的声音可以当场录音或者上传已录好的声音(需要wav格式),点击上传合成就可以稍后就可以听到AI克隆的声音。



除了可以运行web程序调试,还有功能更为丰富的工具箱可以自行试试。启动工具箱:python demo_toolbox.py -d <datasets_root>


三、一点感想


随着AI、元宇宙(AR/VR)技术的普及,虚拟世界的内容和形式都显得越来越真实,和真实世界的边界越来越模糊,交互也越来越容易。一方面,人类活动的疆界越来越大了,生活越加丰富。另一方面,我们可能更容易迷失于虚拟事物中,乱花渐欲迷人眼!

类似与AI模型从海量数据中,发现本质特征做合理的决策的过程,我们也需要维护好自己的“信息筛选及决策系统”,去客观地认识事物及笃定内心深处的追求。


相关文章
|
8天前
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
91 0
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
3天前
|
数据采集 人工智能 自然语言处理
Python实时查询股票API的FinanceAgent框架构建股票(美股/A股/港股)AI Agent
金融领域Finance AI Agents方面的工作,发现很多行业需求和用户输入的 query都是和查询股价/行情/指数/财报汇总/金融理财建议相关。如果需要准确的 金融实时数据就不能只依赖LLM 来生成了。常规的方案包括 RAG (包括调用API )再把对应数据和prompt 一起拼接送给大模型来做文本生成。稳定的一些商业机构的金融数据API基本都是收费的,如果是以科研和demo性质有一些开放爬虫API可以使用。这里主要介绍一下 FinanceAgent,github地址 https://github.com/AI-Hub-Admin/FinanceAgent
|
3天前
|
人工智能 开发者 Python
python读取word文档 | AI应用开发
在RAG系统中,构建知识库时需读取多种外部文档,其中Word文档较为常见。本文介绍如何使用`python-docx`库读取Word文档(.docx格式)中的标题、段落、表格和图片等内容。首先通过`pip install python-docx`安装库,然后利用提供的接口提取所需信息。尽管该库功能强大,但在识别标题样式时需自定义逻辑,并且仅提供图片的URI而非直接加载。示例代码展示了读取文本、识别标题、读取表格及获取图片URI的方法。【10月更文挑战第2天】
16 2
|
1月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
18天前
|
人工智能 小程序 API
文字转语音神器+Python编程搞定语音报时小程序
文字转语音神器+Python编程搞定语音报时小程序
17 2
|
22天前
|
API 语音技术 开发者
用python实现文字转语音的5个较好用的模块
这篇文章介绍了五个Python模块:gtts、pyttsx3、baidu-aip、pywin32和speech,它们能够实现文本到语音的转换功能。
22 1
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
python如何实现AI问答与举例
python如何实现AI问答与举例
15 0
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【9月更文挑战第12天】在当今科技飞速发展的时代,人工智能(AI)已深入我们的生活,从智能助手到自动驾驶,从医疗诊断到金融分析,其力量无处不在。这一切的核心是神经网络。本文将带领您搭乘Python的航船,深入AI的大脑,揭秘智能背后的秘密神经元。通过构建神经网络模型,我们可以模拟并学习复杂的数据模式。以下是一个使用Python和TensorFlow搭建的基本神经网络示例,用于解决简单的分类问题。
40 10
|
1月前
|
Unix Shell Linux
nohup python -u ai_miniprogram_main.py > ../iwork.out 2>&1 & 这句命令是做什么的?
nohup python -u ai_miniprogram_main.py > ../iwork.out 2>&1 & 这句命令是做什么的?
13 1
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
深入骨髓的解析:Python中神经网络如何学会‘思考’,解锁AI新纪元
【9月更文挑战第11天】随着科技的发展,人工智能(AI)成为推动社会进步的关键力量,而神经网络作为AI的核心,正以其强大的学习和模式识别能力开启AI新纪元。本文将探讨Python中神经网络的工作原理,并通过示例代码展示其“思考”过程。神经网络模仿生物神经系统,通过加权连接传递信息并优化输出。Python凭借其丰富的科学计算库如TensorFlow和PyTorch,成为神经网络研究的首选语言。
36 1