Python进行AI声音克隆的端到端指南

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。

本文的将提供利用AI语音克隆技术-通过训练自定义模型将任何音频转换为选定艺术家的音调甚至自己的声音的端到端解决方案。

技术背景

我们将在本文中使用的技术称为歌唱声音转换(Singing Voice Conversion ),特别是一个称为SO-VITS-SVC的系统,它代表“SoftVC VITS Singing Voice Conversion”。

SO-VITS-SVC系统代表了使用深度学习技术的声音转换(SVC)的复杂实现。理解这个系统需要了解它所使用的特定机器学习架构和算法。

1、变分推理和生成对抗网络

SO-VITS-SVC的核心是文本到语音的变分推理(VITS)架构。该系统巧妙地结合了变分自编码器(VAEs)和生成对抗网络(GANs)。在SVC中,mel谱图是音频信号的重要表征,利用VAE对mel谱图的分布进行建模,有助于捕捉语音的潜在变量。

VAE损失函数按下式表示。式中,x为输入mel谱图,z为潜变量,KL为Kullback-Leibler散度。

上面公式封装了VAE损失函数,通过Kullback-Leibler散度平衡了mel谱图的重建和潜空间的正则化。

GAN则增强了合成音频的真实感。GAN中的鉴别器对生成器的输出进行判别,提高了生成器的精度。GAN损失函数为:

GAN损失函数展示了对抗训练动态,驱动生成模型产生难以区分的歌声。

如果想全面了解了解变分自编码器(VAEs)和生成对抗网络(gan),以下是原始论文:

VAEs: Kingma, D. P., and Welling, M. “Auto-Encoding Variational Bayes.” arXiv:1312.6114, 2013.

GANs: Goodfellow, I. J., et al. “Generative Adversarial Nets.” arXiv:1406.2661, 2014.

2、浅扩散过程

如附所示,浅扩散过程从噪声样本开始,通过一系列变换逐步细化为结构化梅尔谱图。

上图展示了SO-VITS-SVC合成流程,从浅扩散模型的初始噪声生成到mel谱图的细化和最终可听声音输出的语音编码。

初始噪声样本:噪声的视觉表示,作为扩散过程的起点。

转换步骤:噪声在扩散模型中经历一系列步骤,从无序状态过渡到结构化的mel谱图。其中xt是步骤t的数据,而ε表示高斯噪声。

上面公式说明了扩散过程中的逐渐转变,将随机噪声转化为结构化数据,捕捉目标歌声的细微差别。在SO-VITS-SVC的背景下,“浅”意味着更少的层或步骤,在计算效率和音频质量之间取得平衡。

mel谱图优化:这个过程的结果是一个mel谱图,它封装了歌唱声音的音频内容,为下一个合成阶段做好准备。

声音编码:最后的声音编码步骤将mel谱图转换成声音波形,即可听到的歌声。

如果想深入探索扩散模型,请看一下的资料:

Sohl-Dickstein, J., et al. “Deep Unsupervised Learning using Nonequilibrium Thermodynamics.” arXiv:1503.03585, 2015.

Ho, J., et al. “Denoising Diffusion Probabilistic Models.” arXiv:2006.11239, 2020.

3、完整流程与SVC系统的整合

在浅层扩散模型将噪音结构化成更连贯的形式之后,如前面提到的图表所示,生成的mel谱图捕捉了歌唱声音的微妙音频内容。这个mel谱图作为原始、非结构化数据与最终声音输出之间的关键桥梁。

然后使用声码器将优化后的mel谱图转换为音频波形。在这一步中,将从视觉数据转换为可听的歌唱声音。声码器的作用是合成mel谱图中捕捉到的音高、音色和节奏的细微差别,从而产生最终的歌唱声音输出。

为了实现高保真度的合成,SO-VITS-SVC系统会经过重新的训练和优化。训练包括优化结合了VAE、GAN和扩散模型组件贡献的损失函数。这种优化使用诸如随机梯度下降或Adam等算法进行,其最终目标是最小化总体损失。这个过程确保最终输出在音色、音高和节奏方面与目标歌唱声音非常相似。

这个过程的最终结果是一个与目标歌唱声音非常相似的合成声音。在保持源声音的音乐性和表现力细微差别的能力的同时,采用目标的音色特质,这是SO-VITS-SVC系统复杂性的体现。

4、使用的python库

GitHub上的SO-VITS-SVC Fork是一个专门设计用于实时歌声转换的专业工具。它是提供了增强功能的原始SO-VITS-SVC项目的分支:如使用CREPE更准确的音高估计、图形用户界面(GUI)、更快的训练时间以及使用pip安装工具的便利性。

它还集成了QuickVC并修复了原始存储库中存在的一些问题。并且支持实时语音转换,下面我们来演示如何使用它。

AI声音克隆

声音克隆就是我们一般所说的推理阶段,是指神经网络模型在数据集上接受训练以理解特定声音后,用所学到的声音生成新内容的过程。

在这个阶段,我们可以通过向预训练的模型提供新的输入(原始的声音音频)来让AI“唱歌”,然后该模型会在原始声音音频上产生模仿艺术家歌唱风格的输出。

1、设置环境

为简单起见,我们将创建一个心的虚拟环境,然后使用它

 conda create -n sovits-svc
 conda activate sovits-svc

安装必要的库。

 !python -m pip install -U pip wheel
 %pip install -U ipython
 %pip install -U so-vits-svc-fork

如果你运行svc命令报错,例如下图

则需要使用pip uninstall Torchaudio卸载Torchaudio,然后使用pip install Torchaudio重新安装。这可能是因为一些依赖没有完整的安装,所以卸载后重装就可以了。

2、预训练模型

entrepreneurdly在Huggingface上提供了很多预训练模型

我们直接下载使用:

 from huggingface_hub import hf_hub_download
 import os

 # Set the repository ID and local directory, we'll use Drake's Model
 repo_id = 'Entreprenerdly/drake-so-vits-svc'
 local_directory = '.'

 # Download the config.json file
 config_file = hf_hub_download(
     repo_id=repo_id,
     filename='config.json',
     local_dir=local_directory,
     local_dir_use_symlinks=False
 )

 # Construct the path to the config file in the current directory
 local_config_path = os.path.join(local_directory, 'config.json')
 print(f"Downloaded config file: {local_config_path}")

 # Download the model file
 model_file = hf_hub_download(
     repo_id=repo_id,
     filename='G_106000.pth',
     local_dir=local_directory,
     local_dir_use_symlinks=False
 )

 # Construct the path to the model file in the current directory
 local_model_path = os.path.join(local_directory, 'G_83000.pth')
 print(f"Downloaded model file: {local_model_path}")

3、选择一个干净的音频文件

下面就是要复制音频,但是这里需要音频是一个只有人声的干净的音频文件,如果音频里面的噪声比较多,我们需要手动进行预处理。因为源音频的质量会显著影响语音转换的保真度,因此始终建议使用高质量、干净的录音。

 import requests

 vocals_url = 'https://drive.google.com/uc?id=154awrw0VxIZKQ2jQpHQQSt__cOUdM__y'
 response = requests.get(vocals_url)
 with open('vocals.wav', "wb") as file:
     file.write(response.content)

 display(Audio('vocals.wav', autoplay=True))

4、运行推理

 from IPython.display import Audio, display
 import os

 # Filenames
 audio_filename = 'vocals.wav'
 model_filename = 'G_106000.pth'
 config_filename = 'config.json'

 # Construct the full local paths
 audio_file = f"\"{os.path.join('.', audio_filename)}\""
 model_path = f"\"{os.path.join('.', model_filename)}\""
 config_path = f"\"{os.path.join('.', config_filename)}\""

 # Running the inference command
 !svc infer {audio_file} -m {model_path} -c {config_path}

5、显示输出

可以直接在Jupyter笔记本或任何IPython界面中显示输出音频:

 from IPython.display import Audio, display

 # Path for the output audio file
 output_audio_path = "vocals.out.wav"

 # Display the output audio
 display(Audio(output_audio_path, autoplay=True))

使用GUI

SO-VITS-SVC系统提供了一个可选的GUI来执行语音转换。可以使用以下命令启动它

 svcg

训练自己的AI模型

上面我们演示了使用预训练模型的推理过程,下面我们来介绍如何训练自己的模型。

我们将展示使用SO-VITS-SVC系统训练自定义歌声转换模型所需的步骤。从准备数据集开始,进行环境设置和模型训练,最后通过从现有音频剪辑生成歌声来进行生成。

这个任务需要大量计算资源,需要一台配备高端GPU和大量VRAM的系统——通常超过10GB。对于那些个人硬件可能不符合这些要求的人来说,Google Colab提供了一个可行的替代方案,提供了访问强大GPU和足够的内存——一块T4 GPU就足够了。

1、数据准备

可以在Hugging Face上找到许多适用于训练自定义so-vits-svc模型的语音数据集。但是要个性化自己的模型以反映独特的声音特征,则需要录制自己的声音。

声音样本要求:

样本长度:最好每段10秒。这个长度对于捕捉声音细微差别而言是最理想的,同时也不会对处理过程提出太高的要求。

样本数量:数据越多,效果越好。需要至少200个声音样本。如果需要唱歌,则需要50个歌唱样本和150个说话样本,类似这样比例。

总音频长度:至少五分钟的总音频时常。这为模型提供了一个学习的坚实基础。

多样化内容:通过朗读语音质量平衡的句子来覆盖各种音素。例如IEEE推荐的语音质量测量实践提供了一个这样的句子列表,这些句子可以为一个全面的数据集做出贡献。

录制工具:Audacity是一个免费、开源的软件,非常适合录制您的样本。它可以轻松录制、编辑和导出WAV文件,还可以对音频进行处理,所以推荐使用

声音样本的预处理

我们需要从音频轨道中去除背景噪音。Spleeter库可以实现这个功能

 !pip install spleeter

 from spleeter.separator import Separator

 # Initialize the separator with the desired configuration.
 # Here, 'spleeter:2stems' means we want to separate the audio into two stems: vocals and accompaniment.
 separator = Separator('spleeter:2stems')

 # Use the separator on the audio file.
 # This function will separate the audio file into two files: one containing the vocals, and one containing the background music.
 separator.separate_to_file('audiofile.wav', './')

将音频轨道分割为片段:我们可以使用AudioSlicer将大量的音频文件分割成适合训练模型的10至15秒的片段。

 from audioslicer import slice_audio

 # Path to the input audio file
 input_audio_path = 'long_audio_file.wav'

 # Path to the output directory where snippets will be saved
 output_directory = 'output/snippets/'

 # Length of each audio snippet in seconds
 snippet_length = 15  

 # Slice the audio file into snippets
 slice_audio(input_audio_path, output_directory, snippet_length)

在当目录下创建了dataset_raw文件夹,并且录音存储在dataset_raw/{speaker_id}目录中,如下面的文件夹结构所示

 .
 ├── dataset_raw
 │   └── {speaker_id}
 │       └── {wav_file}.wav

我们处理后的音频以这种形式保存即可

然后需要运行,进行svc的自动预处理

 !svc pre-resample
 !svc pre-config
 !svc pre-hubert

2、训练配置

训练之前还配置模型,需要在config/44k/目录中创建的config.json文件。这个配置文件中的关键参数包括:log_interval、eval_interval、epochs、batch_size:

对于包含200个样本和批量大小为20的数据集,每个训练轮次等于10步。如果要训练100轮,这就等于1,000个步。

默认设置可能会建议10,000步,但根据您的硬件和数据集大小,可能需要调整这个设置。一个实际的方法可能是以20,000步(20000/10 约等于2000轮)为目标,然后评估性能再决定是否延长训练。

3、开始训练

使用svc train命令开始实际的模型训练。

 !svc train

4、模型推理

在对模型进行了训练、微调和验证之后,下一步是运行推理,将源音频转换为目标语音

 from IPython.display import Audio, display
 import os

 # Filenames
 audio_filename = 'vocals.wav' # vocals to applied trained model
 model_filename = 'model.pth' # model file created
 config_filename = 'config.json' # config file created 

 # Construct the full local paths
 audio_file = f"\"{os.path.join('.', audio_filename)}\""
 model_path = f"\"{os.path.join('.', model_filename)}\""
 config_path = f"\"{os.path.join('.', config_filename)}\""

 # Running the inference command
 !svc infer {audio_file} -m {model_path} -c {config_path}

然后就可以查看结果了

总结

SO-VITS-SVC(基于扩散模型和变分自动编码器的歌声转换系统)是一个强大的工具,用于实现实时歌声转换。通过结合了扩散模型、变分自动编码器和生成对抗网络等技术,SO-VITS-SVC系统能够捕捉歌声的细微差别,并产生高质量的合成歌声。

SO-VITS-SVC系统是一个功能强大且灵活的歌声转换工具,可以应用于多种场景,包括音乐制作、语音合成、语音转换等领域,为用户提供了实现个性化歌声转换的便利和可能。

so-vits-svc-fork地址:

https://avoid.overfit.cn/post/d169280896944f8195048fbbdf838b2e

作者:Cris Velasquez

目录
相关文章
|
27天前
|
机器学习/深度学习 存储 人工智能
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
【9月更文挑战第1天】AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
|
24天前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【9月更文挑战第12天】在当今科技飞速发展的时代,人工智能(AI)已深入我们的生活,从智能助手到自动驾驶,从医疗诊断到金融分析,其力量无处不在。这一切的核心是神经网络。本文将带领您搭乘Python的航船,深入AI的大脑,揭秘智能背后的秘密神经元。通过构建神经网络模型,我们可以模拟并学习复杂的数据模式。以下是一个使用Python和TensorFlow搭建的基本神经网络示例,用于解决简单的分类问题。
38 10
|
22天前
|
Unix Shell Linux
nohup python -u ai_miniprogram_main.py > ../iwork.out 2>&1 & 这句命令是做什么的?
nohup python -u ai_miniprogram_main.py > ../iwork.out 2>&1 & 这句命令是做什么的?
9 1
|
25天前
|
机器学习/深度学习 人工智能 TensorFlow
深入骨髓的解析:Python中神经网络如何学会‘思考’,解锁AI新纪元
【9月更文挑战第11天】随着科技的发展,人工智能(AI)成为推动社会进步的关键力量,而神经网络作为AI的核心,正以其强大的学习和模式识别能力开启AI新纪元。本文将探讨Python中神经网络的工作原理,并通过示例代码展示其“思考”过程。神经网络模仿生物神经系统,通过加权连接传递信息并优化输出。Python凭借其丰富的科学计算库如TensorFlow和PyTorch,成为神经网络研究的首选语言。
28 1
|
2月前
|
数据采集 机器学习/深度学习 人工智能
Python爬虫入门指南探索AI的无限可能:深度学习与神经网络的魅力
【8月更文挑战第27天】本文将带你走进Python爬虫的世界,从基础的爬虫概念到实战操作,你将学会如何利用Python进行网页数据的抓取。我们将一起探索requests库和BeautifulSoup库的使用,以及反爬策略的应对方法。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往数据抓取世界的大门。
|
26天前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络入门到精通:Python带你搭建AI思维,解锁机器学习的无限可能
【9月更文挑战第10天】神经网络是开启人工智能大门的钥匙,不仅是一种技术,更是模仿人脑思考的奇迹。本文从基础概念入手,通过Python和TensorFlow搭建手写数字识别的神经网络,逐步解析数据加载、模型定义、训练及评估的全过程。随着学习深入,我们将探索深度神经网络、卷积神经网络等高级话题,并掌握优化模型性能的方法。通过不断实践,你将能构建自己的AI系统,解锁机器学习的无限潜能。
21 0
|
26天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
46 0
|
2月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
36 4
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
探索AI的魔法:用Python构建你的第一个机器学习模型
【8月更文挑战第31天】在这个数字时代,人工智能(AI)已经渗透到我们生活的方方面面。从智能助手到自动驾驶汽车,AI正在改变世界。本文将带你走进AI的世界,通过Python编程语言,一步步教你如何构建第一个机器学习模型。无论你是编程新手还是有经验的开发者,这篇文章都将为你打开新世界的大门,让你体验到创造智能程序的乐趣和成就感。所以,让我们一起开始这段激动人心的旅程吧!
|
2月前
|
机器学习/深度学习 人工智能 算法
为什么ChatGPT等AI大模型都是基于Python开发?
为什么ChatGPT等AI大模型都是基于Python开发?
下一篇
无影云桌面