AI孙燕姿 ?AI东雪莲 !—— 本地部署DDSP-SVC一键包,智能音频切片,本地训练,模型推理,为你喜欢的角色训练AI语音模型小教程

简介: AI孙燕姿 ?AI东雪莲 !—— 本地部署DDSP-SVC一键包,智能音频切片,本地训练,模型推理,为你喜欢的角色训练AI语音模型小教程

感谢B站UP羽毛布团

演示视频

稻香——东雪莲

image.png

稻香——冬雪莲

虚拟——东雪莲

image.png

虚拟——冬雪莲

反方向的钟——东雪莲

image.png

反方向的钟——冬雪莲

晴天+龙卷风——东雪莲

image.png

晴天+龙卷风——冬雪莲

ZOOD——东雪莲

image.png

ZOOD-----东雪莲

DDSP-SVC 3.0 (D3SP) 是什么?

DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。

下载资源:

提取码:g8n4

解压整合包

将整合包解压到电脑硬盘中(路径中尽量不要包含中文),整合包内已经搭建好了运行所需的所有环境依赖,你无需自己手动搭建环境。

准备数据集

转化数据格式为wav

用uvr5获得原声,去除杂音和背景音效

智能音频切片

音频长度时间最好在30~60min左右

数据集准备

将切片后的数据集放置在data/train/audio文件夹下,在数据集中按训练集:验证集=100:1的比例挑选验证集音频放置到data/val/audio文件夹中

单说话人模型,直接将所有wav文件放置到对应的audio文件夹下即可。如果是训练多说话人模型,需要在训练集和验证集的"audio"文件夹下新建不同说话人的目录,只能以纯数字命名,以1开始

如果你不想手动挑选验证集,在数据集放置到data/train/audio后也可以点击下面的一键划分数据集完成操作。

验证集的条数最好不要超过10条,否则训练验证会变得很慢。验证集的音频质量越高越好。

确认训练集和验证集正确放置后请选择训练编码器和f0提取算法

编码器:hubertsoft: 咬字较为清晰 | contentvec(768l12): 音色更为还原

f0算法:crepe: 抗噪能力较强但预处理速度慢 | parselmouth: 抗噪能力较弱但预处理速度快

注意,不同编码器训练出来的模型不通用,并且对应不同的配置文件,在推理时选择不匹配的配置文件会导致错误

填写训练设置和超参数

D3SP的完整推理过程需要训练2个模型,分别是DDSP模型和扩散模型。因此你需要在下面设置2份配置文件的超参数。

开始训练

D3SP的完整推理过程需要训练2个模型

首先选择训练进度,从头开始训练将会将exp文件夹中的对应模型进度保存备份至models_backup文件夹,如果是训练扩散模型,会自动装载对应编码器的预训练底模。

两个模型的训练是独立的,你可以以任意顺序训练两个模型。训练前请先在上方选择预处理对应的编码器。

推理模型

相关文章
EMQ
|
2天前
|
传感器 人工智能 安全
EMQX 与 MQTT: AI 大模型时代的分布式数据中枢
在以数据为核心的 AI 时代,基于 MQTT 协议的消息服务器 EMQX 能帮助企业更好的利用人工智能和机器学习模型,是智能化系统中核心的数据基础软件。
EMQ
17 0
|
3天前
|
存储 人工智能 缓存
[AI Kimi] Context Caching 正式公测,推动长文本模型降本 90%
Kimi 的上下文缓存(Context Caching)技术正式公测。该技术通过预先存储数据,显著降低了计算成本和延迟,适用于长文本模型,帮助节省高达 90% 的费用,并将首 Token 延迟降低 83%。
|
3天前
|
人工智能 Java
AI大模型----SpringBoot添加放行最简单的方式@AuthAccess,问题库构思,概念title,答案text,搜索search
AI大模型----SpringBoot添加放行最简单的方式@AuthAccess,问题库构思,概念title,答案text,搜索search
|
3天前
|
人工智能
AI软件开发大模型,最简单的相关构思,有提问的输入框,有返回答案的答案框
AI软件开发大模型,最简单的相关构思,有提问的输入框,有返回答案的答案框
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
影中的ai技术
【6月更文挑战第27天】电影中的ai技术
223 65
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术对法律行业有何影响?
【6月更文挑战第27天】AI技术对法律行业有何影响?
78 3
|
3天前
|
数据采集 人工智能 边缘计算
AI技术实时数据处理
7月更文挑战第4天
14 2
|
4天前
|
机器学习/深度学习 人工智能 搜索推荐
AI技术在医疗诊断中的应用
【7月更文挑战第3天】随着科技的不断进步,人工智能(AI)技术在各个领域的应用越来越广泛。特别是在医疗领域,AI技术的应用为医生提供了更加准确、高效的诊断工具,从而提高了患者的治疗效果和生活质量。本文将探讨AI技术在医疗诊断中的应用,包括影像诊断、基因检测、病理分析等方面,并展望AI技术在未来医疗领域的发展前景。
|
6天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用与挑战
【6月更文挑战第30天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。随着科技的进步,AI技术已经在医疗领域取得了显著的成果,如辅助诊断、疾病预测等。然而,AI技术在医疗领域的应用也面临着数据隐私、算法偏见等挑战。本文将详细分析这些问题,并探讨如何克服这些挑战,以实现AI技术在医疗领域的更好应用。
|
12天前
|
人工智能 搜索推荐 安全
智能增强:AI技术在现代教育中的应用与挑战
随着人工智能(AI)技术的飞速发展,其在教育领域的应用也日益广泛。本文探讨了AI技术如何重塑教育行业,包括个性化学习、智能辅导系统、以及自动化评估工具的开发。同时,文章也指出了AI在教育中所面临的挑战,如数据隐私问题、教师角色的转变以及技术不平等现象。通过分析AI技术在教育中的利与弊,本文旨在为教育工作者和政策制定者提供洞察,以促进AI技术在教育领域中的健康发展。