AI孙燕姿 ?AI东雪莲 !—— 本地部署DDSP-SVC一键包,智能音频切片,本地训练,模型推理,为你喜欢的角色训练AI语音模型小教程

简介: AI孙燕姿 ?AI东雪莲 !—— 本地部署DDSP-SVC一键包,智能音频切片,本地训练,模型推理,为你喜欢的角色训练AI语音模型小教程

感谢B站UP羽毛布团

演示视频

稻香——东雪莲

image.png

稻香——冬雪莲

虚拟——东雪莲

image.png

虚拟——冬雪莲

反方向的钟——东雪莲

image.png

反方向的钟——冬雪莲

晴天+龙卷风——东雪莲

image.png

晴天+龙卷风——冬雪莲

ZOOD——东雪莲

image.png

ZOOD-----东雪莲

DDSP-SVC 3.0 (D3SP) 是什么?

DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。DDSP-SVC 是一个相对年轻的音声转换项目,相较于常用的So-VITS和更早的Diff-SVC,DDSP在训练推理速度和配置要求上都可以说是全面优于前两个项目,一般来说只要有一张2G以上显存的N卡,花上一两个小时就可以训练完成,大大降低了AI变声的门槛。当然,带来的牺牲就是其原本的转换效果是不太尽人意的。

但是最近DDSP项目迭代到了3.0版本,在原有的基础上加入了浅扩散机制,将DDSP输出的质量较低的音频梅尔谱图输入扩散模型进行浅扩散处理,输出梅尔谱图并通过声码器转换为高质量音频,使得转换效果大幅提升,在部分数据集上可以达到媲美So-VITS的效果。因此DDSP-SVC 3.0也可以称为D3SP(DDSP with Diffusion, DDDSP, 带带大涩批)。

下载资源:

提取码:g8n4

解压整合包

将整合包解压到电脑硬盘中(路径中尽量不要包含中文),整合包内已经搭建好了运行所需的所有环境依赖,你无需自己手动搭建环境。

准备数据集

转化数据格式为wav

用uvr5获得原声,去除杂音和背景音效

智能音频切片

音频长度时间最好在30~60min左右

数据集准备

将切片后的数据集放置在data/train/audio文件夹下,在数据集中按训练集:验证集=100:1的比例挑选验证集音频放置到data/val/audio文件夹中

单说话人模型,直接将所有wav文件放置到对应的audio文件夹下即可。如果是训练多说话人模型,需要在训练集和验证集的"audio"文件夹下新建不同说话人的目录,只能以纯数字命名,以1开始

如果你不想手动挑选验证集,在数据集放置到data/train/audio后也可以点击下面的一键划分数据集完成操作。

验证集的条数最好不要超过10条,否则训练验证会变得很慢。验证集的音频质量越高越好。

确认训练集和验证集正确放置后请选择训练编码器和f0提取算法

编码器:hubertsoft: 咬字较为清晰 | contentvec(768l12): 音色更为还原

f0算法:crepe: 抗噪能力较强但预处理速度慢 | parselmouth: 抗噪能力较弱但预处理速度快

注意,不同编码器训练出来的模型不通用,并且对应不同的配置文件,在推理时选择不匹配的配置文件会导致错误

填写训练设置和超参数

D3SP的完整推理过程需要训练2个模型,分别是DDSP模型和扩散模型。因此你需要在下面设置2份配置文件的超参数。

开始训练

D3SP的完整推理过程需要训练2个模型

首先选择训练进度,从头开始训练将会将exp文件夹中的对应模型进度保存备份至models_backup文件夹,如果是训练扩散模型,会自动装载对应编码器的预训练底模。

两个模型的训练是独立的,你可以以任意顺序训练两个模型。训练前请先在上方选择预处理对应的编码器。

推理模型

相关文章
|
5天前
|
人工智能 移动开发 前端开发
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。
295 66
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
|
5天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
61 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。
74 18
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
|
10天前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
15天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
67 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
4天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
41 13
|
8天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
45 13
|
1天前
|
人工智能 自然语言处理 计算机视觉
AI大模型开启智能化新时代
12月19日下午,复旦大学计算机科学技术学院第十二期“步青讲坛”在江湾校区二号交叉学科楼E1006报告厅举行。本期讲坛特别邀请了阿里巴巴集团副总裁、IEEE Fellow叶杰平教授做题为《AI大模型开启智能化新时代》的精彩技术报告。
37 4
|
3天前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
7天前
|
缓存 人工智能 负载均衡
AI革新迭代:如何利用代理IP提升智能系统性能
在人工智能快速发展的背景下,智能系统的性能优化至关重要。本文详细介绍了如何利用代理IP提升智能系统性能,涵盖数据加速与缓存、负载均衡、突破地域限制、数据传输优化和网络安全防护等方面。结合具体案例和代码,展示了代理IP在实际应用中的价值和优势。
18 0