【AI 孙燕姿 | AI 音色克隆】RVC 使用图文教程:无难度男女换声(伪音)、 AI 孙燕姿

简介: 根据本文,可以很简单实现:音乐干声分离:背景音(BGM)与人声(干声)的分离;训练个人音色模型:作为模仿其他干声素材的音色数据;男女换声(伪音):基于异性干声素材,进行实时转化声音为异性声音;AI 唱歌:仅作基础的模拟演唱,仍需进行调音等等操作,才可以达到完美;音色融合:不同音色的特征融合出一个全新的音色
👏 Hi! 我是 Yumuing,一个技术的敲钟人

👨‍💻 每天分享技术文章,永远做技术的朝拜者

最近,视频网站音乐区up主掀了“AI孙燕姿”的风潮。这种使用AI技术提取某位歌手的音色,再用其替换另一位歌手音色的方式,可以实现接近歌手本人翻唱的逼真效果。除孙燕姿外,面对周杰伦、陶喆、陈奕迅、王菲等众多具有独特嗓音的歌手,歌迷纷纷奔向“AI点唱机”——这个可以生成任何希望被翻唱歌曲的“神器”,让众多粉丝一偿“直接点歌偶像”的心愿。当然,以此为基础,也诞生了很多有意思的开源应用方案,如:无需学习其他伪音技巧,即可实现实时男女声音互换等等。作者将使用 RVC 模型和入梦工具,带大家实现以下几个功能:

  • 音乐干声分离:背景音(BGM)与人声(干声)的分离
  • 训练个人音色模型:作为模仿其他干声素材的音色数据
  • 男女换声(伪音):基于异性干声素材,进行实时转化声音为异性声音
  • AI 唱歌:仅作基础的模拟演唱,仍需进行调音等等操作,才可以达到完美
  • 音色融合:不同音色的特征融合出一个全新的音色

现实案例说明

在进行教学前,我们先假设这样一个场景:现有素材,男声音色A,女声音色B,女声音色C的朗读素材C,男唱歌状态下的音色D,女声音色C的唱歌素材E,我们根据以上介绍的功能进行整合,可以做到以下案例:

  • 案例一:将女声C的朗读素材进行干声分离,再用男声音色A朗读女声音色C的朗读素材C。
  • 案例二:可以用女声B的音色去朗读女声C的朗读素材。
  • 案例三:甚至能够进行小延迟(0.1s)的实时音色转换,比如将使用男声音色A的声音去讲,可以实时转化为女声音色B的声音,实现无技巧完成男女伪声转换。
  • 案例四:利用音色D的声音去演唱音色C的唱歌素材,实现类似AI孙燕姿的功能。
  • 案例五:拿女音色B和C的素材进行融合出一个新的音色F
  • 案例六:音色A从来没有说过外语(英语、日语等等),但需要现在马上说一段外语音频

效果可参考出处:【rvc教程】AI变声/AI音色训练-哔哩哔哩,极为逼真,值得尝试。当然,我也只是作为分享。
在此感谢三位UP主:花儿不哭/唯有如梦/干易/掉脑袋切切\_bling 的视频

文件目录如下:

文件目录

注意事项

  • 性能要求:建议20系N卡以上,显存在 8g 以上,性能越高越好
  • 模型文件目录要求:全英文、无中文、待处理音频、单音色素材独立一个文件夹
  • 启动模型时,命令行界面不能关闭,否则,模型停止运行,下文中提到的所有命令行都使用时不能关闭
  • 注意音色版权问题,不做违法勾当,技术无罪,请勿滥用
  • 音色、音频素材质量好坏不仅仅体现在音源质量,音色训练干声素材更在意有无噪声(气泡音、混响者等不佳),是否贴合模仿场景(唱歌音色对应唱歌音频转换等等),是否音频变调范围较少等等

音色推理流程

什么是音色推理呢?其实就是实现案例一二的过程,也就是推理音色A到音色B,再应用到声音素材上的过程。我们将使用 RVC 模型的一建训练包,步骤如下:

  1. 启动 RVC web 界面:双击打开 RVC-beta\_5\RVC-beta\go-web.bat
  2. 等待启动,启动成功命令行效果如下:
    命令行:
    go-web.bat
    web界面:
    web界面
  3. 界面参数说明:

    • 推理音色:推理结果成品的实际音色
    • 待处理音频:推理结果成品的实际音频内容,支持绝大部分音频格式
    • index 路径:推理音色相符合的特征文件 index 结尾
    • 变调(整数, 半音数量, 升八度12降八度-12):男女音调差距较大,男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域.
    • 刷新音色列表和索引路径:加载新的推理音色和 index 文件,训练出新音色就需要重新加载
    • 卸载音色:去除加载进的音色,以节省显存
    • 音高提取算法:输入歌声可用pm提速,harvest低音好但巨慢无比
  4. 选定对应参数数据:按照界面参数,选择推理音色、待处理音频、index 路径、变调等等最基本的参数(也就是说其他参数保持默认的参数也能使用,有能力、有需求的再自行微调),点击转换即可进行音色推理了。
    转换结果效果如下:
    音色推理结果
    点击播放按钮即可在线播放转换后的音频,右键点击即可下载结果音频或者改变播放速度。最好是先听听效果,再下载,毕竟不一定效果合适,可能需要调整参数。
    这就是音色推理的全流程,也是整个模型训练性能要求最低的一个部分之一,如果,你连默认的音色都无法正常推理成功的话,音色训练部分建议在性能更强的电脑上进行。

素材干声分离

素材干声分离也就是分离人声和背景音,这一部分不一定需要本模型一键训练包来完成,只是为了获得更好的干声素材而做的预处理操作,有其他现成更简单的工具也可以使用。话扯远了,接下来就说说怎么进行素材的干声分离,步骤如下:

  1. 启动 RVC 模型的一建训练包,和推理模型的启动方法一致,切换到干声分离界面,如下:
    素材干声分离界面
  2. 界面参数说明:

    • 待处理音频路径:待处理音频的文件夹路径,注意不是文件路径,这也是为什么每个待处理音频都要独立放置到一个文件夹的原因,因为太多文件,训练时间过长。
    • 按需选择分离模型:HP2 人声(只有背景音和人声类型)、HP5人声(带有背景音和人声叠加等等效果类型)
    • 指定人声输出目录:默认 RVC-beta\opt
    • 指定乐器文件夹:背景音文件夹,默认 RVC-beta\opt
  3. 填写好对应参数信息之后,点击转换即可完成素材干声分离。最终效果如下:
    素材干声分离结果
    输出信息为 success 即为干声分离成功,如果报错,就需要检查音频和电脑的硬件问题了。

音色训练

音色训练其实就是利用经过预处理或者本身音源素质良好的干声素材进行训练,提取对应的音色特征,进而模拟其音色特征,再生成对应的音色包,这个过程中当然可以尝试通过微调参数实现更好的音色特征提取,但篇幅有限,本文只介绍最简单,最直接的音色训练教程。步骤如下:

  1. 准备好 3 分钟以上、50 分钟以内的优质干声素材,建议在3到7分钟之间,效果就很不错了,做好训练时长等待的准备
  2. 启动训练模型,切换到训练模块,如下:
    训练界面
  3. 界面参数说明:

    • 实验名:即将训练出来的音色包名称
    • 目标采样率:干声素材采集样本占比,按性能需求更改,默认 40k 就有不错的效果了
    • 模型是否带音高指导:如果是唱歌类型的干声素材,必须选择 true ,反之,选或不选都可以
    • 版本:建议使用 V1,V2 仍存在部分 Bug
    • 提取音高和处理数据所使用的 CPU 进程数,默认为 16 ,可根据性能瓶颈自行更改,最少为 2
    • 训练文件夹路径:所要训练的干声素材文件夹路径,注意是文件夹路径,同一个文件夹里面只能包含一个人的音色干声素材
    • 显卡信息:启动后会自动读取本机显卡信息,多张显卡可输入卡号,指定训练用显卡
    • 音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢
    • 保存频率:每训练 n 轮,保存一次音色特征数据,建议以 20 为保存频率,可根据性能瓶颈自行更改
    • 总训练轮数:不得小于保存频率数,总训练轮数按性能瓶颈来,建议 200 轮即可,干声素材优秀可选择 50 轮即可,普通人听不出来的,最高可达 1000 轮,轮数越高,性能要求越大,时间越长,过高也会过拟合,不建议太高。
    • 每张显卡的 back\_size:按默认即可,会在读取显卡信息后自动选择,如果自行指定训练显卡,可根据性能瓶颈自行选择
    • 是否仅保存最新的ckpt文件以节省硬盘空间:选择是的话,只有最后一轮的训练特征数据,反之,按保存频率保存音色文件
    • 是否缓存所有训练集至显存.:10min以下小数据可缓存以加速训练, 大数据缓存会炸显存也加不了多少速度
    • 是否在每次保存时间点将最终小模型保存至weights文件夹:选择是即可
  4. 填好以上界面参数数据,点击一键训练即可,慢慢等待结果出现,建议只运行该模型
    ckpt 处显示 success,结尾有个 2333333 即为成功
    训练结果命令行
    训练结果(音色)文件夹:weights 文件夹
    音色文件夹
    训练音色特征结果:logs 文件夹
    音色特征数据
    如果,没有迁移训练和微调参数需求的话,可仅保存 index 和 npy 文件,连同前文的 pth 文件就可以构成一个完整的音色包文件。可分享音色包文件示例如下:
    音色包文件

利用这个音色包文件就可以进行前文的音色推理了,也就能够实现案例一、二、四、七,包含唱歌类型的模拟,以及说一段自己不会的外语音频也是可以实现的,同时,实现唱歌素材的模拟不就可以得到 AI 孙燕姿的干声素材,再利用之前干声分离出的背景音进行调整,就可以基本实现AI孙燕姿啦,只要我们拥有(训练所得、分享获得)孙燕姿的唱歌音色包,以及对应优质的唱歌干声素材,当然,还需要进一步的调音、编曲等待操作,让它更像更完美。

音色融合

音色融合就是基于前文提到的音色训练出来的音色包进行融合音色,当然,同一性别的音色融合效果会好一点,通过音色融合,我们就可以创造出一个全新的音色包,当然,也可以利用此操作减少音色爆音的几率,比如,A音色音色好但容易爆音,B音色不太好,但胜在稳定,就可以用高权重的A模型融合低权重的B模型,融合出来的音色就能拥有两个的优点,但权重比例得自行调整,达到一个比较好的平衡,基于融合后的音色就可以做出不一样的音源素材。步骤如下:

  1. 启动模型,切换到 ckpt 部分
    ckpt界面
  2. 界面参数说明:

    • A、B模型路径:A、B模型文件路径就是需要进行融合的两个音色模型的 pth 文件路径
    • A 模型权重:融合哪个音源特征更多的数值化表达,也就是融合结果音色更像哪个音色
    • 保存的模型名称:此次融合结果音色的名称

    其他参数自行调整,简单地调整以上数据就能实现音色融合

  3. 点击融合,输出结果为 success 即可。音色包会在 weight 出现,并且,不会有对应的 index 和 npy 文件生成,但可用高权重的音色模型训练出来的结果文件。
    音色融合
    这我们就能实现案例五的效果了,你可以使用融合后的音色继续“炼丹”,直到满意为止。

入梦工具实现男女伪音实时无技巧转化

男女伪音,也就是男女声音实时互换的操作,实现类似于变声器的效果,部分游戏、陪玩也有在使用。步骤如下:

  1. 启动模型和入梦工具:双击 RVC-beta\_5\RVC-beta\go-realtime-gui.bat 和 RVC\RVC入梦小工具\RVC入梦小工具.exe
    GUI 界面如下:
    模型GUI界面

    模型运行命令行界面如下:
    模型命令行
    入梦工具界面如下:
    入梦工具

  2. 安装入梦工具驱动:点击入梦工具虚拟 MME,一直下一步即可安装驱动
    驱动安装
  3. 点击系统音频,配置扬声器和麦克风

    • 录制设备配置成入梦工具为默认使用设备
      配置录制设备
    • 播放设备不用修改,使用电脑默认设置就行,需要修改入梦扬声器的属性配置中的采样频率和位深度与电脑默认设置的设备对应属性一致,再更改入梦麦克风的侦听属性为侦听此设备即可。不过建议为耳机类型的扬声器,公放类型会被录制设备读取,产生回音,出现杂音。
      修改属性一
      默认设备属性

      修改属性二
      修改属性三

  4. 配置模型音频输入输出设备:输入设备设置为电脑默认麦克风即可,输出设备设置为入梦扬声器,实际播放声音为电脑默认音频输出设备,如下:
    音频输入输出设备设置
  5. 模型 GUI 界面加载模型参数说明:
    加载模型

    • 载入 Hubert 模型:不会默认读取模型,需要自行载入,双击按钮打开文件夹,选中 RVC-beta\_5\RVC-beta\hubert\_base.pt 即可。
    • 选择 pth 文件:双击按钮打开文件夹,自行选中音色包内的 pth 文件即可
    • 选择 index 文件:双击按钮打开文件夹,自行选中对应音色包内的 index 文件即可
    • 选择 npy 文件:双击按钮打开文件夹,自行选中对应音色包内的 npy 文件即可
  6. 模型 GUI 界面常规设置及其性能设置参数说明:
    常规设置及其性能设置

    • 响应阈值:麦克风读取响应速度,自行调整不爆音即可,数据越低,实时延迟越小
    • 音调设置:男女音调差距较大,男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域。
    • index rate:0.3 到 0.5即可,特征提取相关参数
    • 采样长度:推理时间,采样长度自行调整,不含过多电子音即可,数值越低,延迟越低,建议为 1 即可
    • 淡入淡入长度:保持默认即可,除非有一些奇怪的尾音
    • 额外推理长度:推理长度高一点,声音可能会好一些,但延迟高,自行调整
    • 输入输出降噪:如果录音环境存在一定噪声可勾选
  7. 选择完其他设置,点击开始转化即可实现实时转换音色的效果,注意推理时间正常变化才是正常运行。
  8. 如果需要切换音色的话,就必须停止音频转换再重新修改加载模型部分的参数。
  9. 如果是游戏使用、录制时使用,就必须把对应软件的麦克风设置为入梦麦克风,注意检查一下

本章节解决了案例三的男女伪音转换效果,这也将引起我们的警觉。

总结一下

AI 语音技术的进步已经带来了许多令人兴奋的结果,而 RVC 则是其中的一个重要发展方向。RVC 可以让使用者将一个人的声音样本複制并转移到另一个人身上,并可实现即时语音转换。以下是 RVC 可能带来的一些结果:

  1. 更自然的语音转换:RVC 技术可以让语音转换更加自然、逼真。这种技术可以学习一个人的语音特徵,包括音调、节奏和语速等,并将这些特徵应用到其他人的语音中,使其听起来更加自然。
  2. 音频和影片后期制作:RVC 技术还可以用于音频和影片后期制作。例如,在电影和电视剧中,演员的声音可能需要进行修剪或处理,RVC 技术可以帮助制作人员快速、高效地完成这些任务。
  3. 音乐创作:RVC 技术可以用于音乐创作,例如合成电子音乐或增强现有音乐。使用这种技术,音乐家可以从其他艺术家的声音中获得灵感,并将其应用到自己的创作中。

虽然这技术对于娱乐、语音合成等方面有著极大的应用价值。然而,这种技术也引发了许多道德等问题,例如滥用、欺骗、侵犯隐私等问题,需要你我共同关注,使用该技术时也要特别注意这些问题,请小心别踩线。

关注引导水印.gif

目录
相关文章
|
7月前
|
人工智能 物联网 PyTorch
SCEdit:轻量级高效可控的AI图像生成微调框架(附魔搭社区训练实践教程)
SCEdit是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队所提出。
|
2月前
|
自然语言处理 IDE 测试技术
通义灵码史上最全使用教程:秀一秀AI编程新肌肉
通义灵码是阿里云推出的一款智能编码辅助工具,基于通义大模型,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等功能。它支持 Visual Studio Code 和 JetBrains IDEs,适配多 IDE 原生设计,帮助开发者高效、流畅地编码。官方提供了详细的下载和安装指南,以及丰富的功能介绍和使用指南。
368 3
|
4月前
|
人工智能
Suno教程篇:音乐小白也能使用Suno AI零门槛创作音乐?从此只听AI写的歌!
本文是一篇Suno AI音乐创作工具的教程,指导音乐小白如何使用Suno AI零门槛创作音乐,包括准备工作、基础使用、歌曲风格的选择、歌词填入技巧,以及通过实例展示如何为不同场景生成背景音乐。
Suno教程篇:音乐小白也能使用Suno AI零门槛创作音乐?从此只听AI写的歌!
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
这篇文章是一篇保姆级的教程,旨在全面介绍如何与AI进行高效交流,包括ChatGPT的前世今生、应用场景以及提问的基础技巧。
还不懂如何与AI高效交流?保姆级且全面的chatGPT提示词工程教程来啦!(一)基础篇
|
3月前
|
人工智能 Linux iOS开发
AI超强语音转文本SenseVoice,本地化部署教程!
【9月更文挑战第7天】以下是AI超强语音转文本工具SenseVoice的本地化部署教程:首先确保服务器或计算机满足硬件和软件要求,包括处理器性能、内存及操作系统等。接着从官网下载适合的安装包,并按操作系统进行安装。配置音频输入设备和语言模型后,启动SenseVoice并测试其语音转文本功能。最后根据实际使用情况进行优化调整,并定期更新以获取最新功能。详细步骤需参照官方文档。
746 1
|
3月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
4月前
|
数据采集 人工智能 自然语言处理
从零开始学AI:Python完整操作教程
本教程详尽介绍了利用Python进行人工智能操作的核心方法与应用场景,涵盖数据预处理、模型训练与评估全过程。通过源码解析和实战案例(如房价与股票价格预测),读者将学会构建与测试AI模型,并理解其优缺点。教程还探讨了AI在智能客服与医疗诊断等领域的应用,以及如何通过单元测试确保代码质量。通过本教程,初学者能够快速掌握AI基本技能,为未来的技术发展奠定坚实基础。
472 4
从零开始学AI:Python完整操作教程
|
7月前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
299 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
372 1
|
5月前
|
存储 人工智能 弹性计算
通义万相AI绘画创作评测及图文搭建教程
【7月更文挑战第4天】阿里云的通义万相是AI绘画模型,结合ECS、OSS和API服务,提供无缝创作环境。用户上传图片至OSS,模型通过签名URL下载图片,然后生成AI艺术作品。模型服务具有高性能、易集成的特点,适用于多种场景如设计、广告等。用户可按指示在阿里云官网注册、充值、开通服务并部署。项目评测显示,其集成便捷、响应快、泛化能力强,但仍有改进空间,如增加图像控制选项和批量处理能力。相对于竞品,通义万相在成本、易用性和应用场景上有竞争力,值得推荐。
10611 9