AI孙燕姿？AI东雪莲！—— 本地部署DDSP-SVC一键包，智能音频切片，本地训练，模型推理，为你喜欢的角色训练AI语音模型小教程

2023-07-08 3270

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI孙燕姿？AI东雪莲！—— 本地部署DDSP-SVC一键包，智能音频切片，本地训练，模型推理，为你喜欢的角色训练AI语音模型小教程

感谢B站UP羽毛布团

演示视频

稻香——东雪莲

稻香——冬雪莲

虚拟——东雪莲

虚拟——冬雪莲

反方向的钟——东雪莲

反方向的钟——冬雪莲

晴天+龙卷风——东雪莲

晴天+龙卷风——冬雪莲

ZOOD——东雪莲

ZOOD-----东雪莲

DDSP-SVC 3.0 (D3SP) 是什么？

DDSP-SVC 是一个相对年轻的音声转换项目，相较于常用的So-VITS和更早的Diff-SVC，DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目，一般来说只要有一张2G以上显存的N卡，花上一两个小时就可以训练完成，大大降低了AI变声的门槛。当然，带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本，在原有的基础上加入了浅扩散机制，将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理，输出梅尔谱图并通过声码器转换为高质量音频，使得转换效果大幅提升，在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP（DDSP with Diffusion, DDDSP, 带带大涩批）。DDSP-SVC 是一个相对年轻的音声转换项目，相较于常用的So-VITS和更早的Diff-SVC，DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目，一般来说只要有一张2G以上显存的N卡，花上一两个小时就可以训练完成，大大降低了AI变声的门槛。当然，带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本，在原有的基础上加入了浅扩散机制，将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理，输出梅尔谱图并通过声码器转换为高质量音频，使得转换效果大幅提升，在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP（DDSP with Diffusion, DDDSP, 带带大涩批）。

下载资源：

提取码：g8n4

解压整合包

将整合包解压到电脑硬盘中（路径中尽量不要包含中文），整合包内已经搭建好了运行所需的所有环境依赖，你无需自己手动搭建环境。

准备数据集

转化数据格式为wav

用uvr5获得原声，去除杂音和背景音效

智能音频切片

音频长度时间最好在30~60min左右

数据集准备

将切片后的数据集放置在data/train/audio文件夹下，在数据集中按训练集：验证集=100:1的比例挑选验证集音频放置到data/val/audio文件夹中

单说话人模型，直接将所有wav文件放置到对应的audio文件夹下即可。如果是训练多说话人模型，需要在训练集和验证集的"audio"文件夹下新建不同说话人的目录，只能以纯数字命名，以1开始

如果你不想手动挑选验证集，在数据集放置到data/train/audio后也可以点击下面的一键划分数据集完成操作。

验证集的条数最好不要超过10条，否则训练验证会变得很慢。验证集的音频质量越高越好。

确认训练集和验证集正确放置后请选择训练编码器和f0提取算法

编码器：hubertsoft: 咬字较为清晰 | contentvec(768l12): 音色更为还原

f0算法：crepe: 抗噪能力较强但预处理速度慢 | parselmouth: 抗噪能力较弱但预处理速度快

注意，不同编码器训练出来的模型不通用，并且对应不同的配置文件，在推理时选择不匹配的配置文件会导致错误

填写训练设置和超参数

D3SP的完整推理过程需要训练2个模型，分别是DDSP模型和扩散模型。因此你需要在下面设置2份配置文件的超参数。

开始训练

D3SP的完整推理过程需要训练2个模型。

首先选择训练进度，从头开始训练将会将exp文件夹中的对应模型进度保存备份至models_backup文件夹，如果是训练扩散模型，会自动装载对应编码器的预训练底模。

两个模型的训练是独立的，你可以以任意顺序训练两个模型。训练前请先在上方选择预处理对应的编码器。

AI孙燕姿？AI东雪莲！—— 本地部署DDSP-SVC一键包，智能音频切片，本地训练，模型推理，为你喜欢的角色训练AI语音模型小教程

感谢B站UP羽毛布团

演示视频

稻香——东雪莲

虚拟——东雪莲

反方向的钟——东雪莲

晴天+龙卷风——东雪莲

ZOOD——东雪莲

DDSP-SVC 3.0 (D3SP) 是什么？

下载资源：

解压整合包

准备数据集

智能音频切片

数据集准备

填写训练设置和超参数

开始训练

推理模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

AI孙燕姿 ？AI东雪莲 ！—— 本地部署DDSP-SVC一键包，智能音频切片，本地训练，模型推理，为你喜欢的角色训练AI语音模型小教程

感谢B站UP羽毛布团

演示视频

稻香——东雪莲

虚拟——东雪莲

反方向的钟——东雪莲

晴天+龙卷风——东雪莲

ZOOD——东雪莲

DDSP-SVC 3.0 (D3SP) 是什么？

下载资源：

解压整合包

准备数据集

智能音频切片

数据集准备

填写训练设置和超参数

开始训练

推理模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

AI孙燕姿？AI东雪莲！—— 本地部署DDSP-SVC一键包，智能音频切片，本地训练，模型推理，为你喜欢的角色训练AI语音模型小教程