如何使用ModelScope魔搭开源代码训练一款语音合成模型

简介: 如何使用ModelScope魔搭开源代码训练一款语音合成模型

从模型体验到开发训练,本文将演示如何通过modelscope魔搭体验达摩院预训练模型,并手把手演示定制一款语音合成模型的训练过程。

目前达摩院语音实验室在ModelScope魔搭社区已经上线了13个语音合成模型,其中男女声发音人模型各4个,多发音人模型5个,整体MOS评分在4.5分左右,达到了接近真实录音的水平,模型支持中文、英式英文、美式英文、中英混这几类语言,适用于朗读、视频配音等多种场景。

▏如何体验语音合成模型效果

1. 在线体验

ModelScope上线的语音合成模型均提供了在线体验功能,点击进入模型主页,在页面右侧可以输入想要合成的文本,点击“执行测试”,模型会加载并进行推理,推理完成后,下方的“测试结果”会出现合成的音频,点击它就可以播放音频啦。

image.png

2. Notebook开发体验

对于有一定经验的开发者,还可以通过在线Notebook体验模型效果,点击模型主页右上角的“在Notebook中打开”,

image.png

请注意以上操作需要的前提条件:

①注册一个阿里云账号

②注册一个ModelScope网站账号

先登录ModelScope账号,点击模型页面右上角的“在Notebook中打开”按钮出现对话框。首次使用会提示您关联阿里云账号,按提示操作即可。

待进入Notebook开发环境后我们选择新建Notebook脚本

image.png

将模型主页的示例代码粘贴到Notebook代码块中,并将text替换成想要合成的文本,运行代码块,随后即可在左侧文件栏中获得合成的语音文件,可下载到本地进行试听。

image.png

▏如何训练一个定制语音合成模型

达摩院语音实验室已经将ModelScope上语音合成模型使用的训练框架KAN-TTS开源到了Github代码托管平台,并提供了中文多人预训练模型,开发者基于此语音合成训练框架及预训练模型,即可在小规模数据集上定制自己的语音合成模型,这里我们将使用AISHELL-3开源语音合成数据集(特别鸣谢希尔贝壳提供该数据集),演示如何生产一个定制化语音合成模型。

首先在开始训练前,我们需要完成环境搭建和数据准备两个操作。

环境搭建

获取KAN-TTS源码, 后续操作默认在代码库根目录下执行

git clone https://github.com/AlibabaResearch/KAN-TTS.gitcd KAN-TTS

我们推荐使用Anaconda来搭建Python虚拟环境,使用以下命令创建(目前只兼容Linux x86系统):


# 防止使用pip安装时出现网络问题,建议切换国内pip源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 创建虚拟环境conda env create -f environment.yaml
# 激活虚拟环境conda activate maas

数据准备

目前KAN-TTS支持两种类型的数据格式:阿里标准格式通用格式

其中阿里标准格式数据如下:

.├── interval│   ├── 500001.interval│   ├── 500002.interval│   ├── 500003.interval│   ├── ...│   └── 600010.interval├── prosody│   └── prosody.txt└── wav    ├── 500001.wav    ├── 500002.wav    ├── ...    └── 600010.wav

通用格式数据如下:

.├── prosody│   └── prosody.txt└── wav    ├── 1.wav    ├── 2.wav    ├── ...    └── 9000.wav

wav文件夹下存放了音频文件,prosody文件夹下的.txt文件对应的是音频文件的文本标注,interval文件夹下存放的是音素级别的时间戳标注,通常情况下通用格式数据不会携带时间戳标注,这是两种格式的区别。

快速开始:你可以从ModelScope下载经过阿里标准格式处理的AISHELL-3开源语音合成数据集,用来进行后续操作。

在ModelScope页面下载数据文件,

解压数据文件并得到文件夹

unzip aishell3.zip

AISHELL-3包含两百多个发音人录音,每个发音人数据量在20~30分钟不等,这里我们选择其中的一个发音人进行数据处理,以SSB0009为例(开发者也可自行选择其他发音人),训练一个16k采样率的语音合成模型。

由于原始音频采样率为44k,我们先对音频做重采样,这里需要用到该数据集的元数据仓库脚本


# 拉取元数据仓库,并做重采样处理git clone https://www.modelscope.cn/datasets/speech_tts/AISHELL-3.git./AISHELL-3/aishell_resample.sh aishell3 aishell3_16k 16000

下面我们选择适合数据采样率的配置文件进行特征提取操作,这里我们以16k采样率为例kantts/configs/audio_config_16k.yaml

运行以下命令来进行特征提取,其中--speaker代表该数据集对应发音人的名称,用户可以随意命名。


python kantts/preprocess/data_process.py --voice_input_dir aishell3_16k/SSB0009 --voice_output_dir training_stage/SSB0009_feats --audio_config kantts/configs/audio_config_16k.yaml --speaker SSB0009

根据数据集规模,特征提取需要运行一段时间,提取完毕后你会在training_stage/SSB0009_feats目录下得到如下结构的文件:


# 基于阿里标准格式数据所提取出的特征目录├── am_train.lst├── am_valid.lst├── audio_config.yaml├── badlist.txt├── data_process_stdout.log├── duration├── energy├── f0├── frame_energy├── frame_f0├── frame_uv├── mel├── raw_duration├── raw_metafile.txt├── Script.xml├── train.lst├── valid.lst└── wav

至此数据准备工作就算完成了。

获取预训练模型

ModelScope中文多人语音合成模型是达摩院语音实验室在100小时精标多人数据集上训练产出的预训练模型,我们以此为basemodel做后续微调。使用git命令拉取模型,在拉取前,首先你需要安装git-lfs, 具体的安装教程见Git Large File Storage,安装完成后执行以下命令

# 克隆预训练模型git clone -b pretrain http://www.modelscope.cn/speech_tts/speech_sambert-hifigan_tts_zh-cn_multisp_pretrain_16k.git

微调声学模型

KAN-TTS的训练脚本是配置驱动的,我们使用预训练模型的sambert/config.yaml作为训练配置文件。

此外根据在数据准备阶段对数据集做的命名,我们还需要修改配置文件中的speaker_list配置项:

# 将speaker_list其中一个发音人替换为aishell3发音人linguistic_unit:   cleaners: english_cleaners  lfeat_type_list: sy,tone,syllable_flag,word_segment,emo_category,speaker_category  speaker_list: SSB0009,F74,FBYN,FRXL,M7,xiaoyu

以及train_max_steps配置项,我们希望在basemodel 980k的基础上,继续微调120k

# 将train_max_steps改为1100100...train_max_steps: 1100100...

完成上述必要的配置项修改后,我们就可以使用以下命令训练声学模型了:


CUDA_VISIBLE_DEVICES=0 python kantts/bin/train_sambert.py --model_config speech_sambert-hifigan_tts_zh-cn_multisp_pretrain_16k/basemodel_16k/sambert/config.yaml  --root_dir training_stage/SSB0009_feats --stage_dir training_stage/SSB0009_sambert_ckpt

根据你的显卡数量和性能不同,此处sambert训练会需要5~10个小时,训练完成后模型输出目录如下:

./SSB0009_sambert_ckpt├── ckpt/├── checkpoint_1100000.pth   <----- this is the latest checkpoint├── checkpoint_1020000.pth├── checkpoint_1040000.pth|....├── config.yaml├── log/└── stdout.log

微调声码器

与声学模型类似,声码器的训练脚本也是配置驱动的,你可以使用预训练模型目录下的hifigan/config.yaml作为训练配置文件,另外声学模型和声码器的微调并没有依赖关系,两者可以同时进行。我们希望在basemodel 2000k steps的基础上再微调100k steps, 但不保留state,修改hifigan/config.yaml配置项train_max_steps

# 将train_max_steps改为100100...train_max_steps: 100100...

运行以下命令进行训练:

CUDA_VISIBLE_DEVICES=0 python kantts/bin/train_hifigan.py --model_config speech_sambert-hifigan_tts_zh-cn_multisp_pretrain_16k/basemodel_16k/hifigan/config.yaml --root_dir training_stage/SSB0009_feats --stage_dir training_stage/SSB0009_hifigan_ckpt

声码器需要的微调时间较长,根据GPU型号不同在12~20小时不等。

训练完成后,声码器模型输出目录如下:


.├── ckpt/│   ├── checkpoint_2020000.pth│   ├── checkpoint_2040000.pth│   ├── ...│   └── checkpoint_2100000.pth      <---- this is the latest checkpoint├── config.yaml├── log/└── stdout.log

体验模型效果

在声学模型和声码器微调完毕后,我们就可以使用产出的模型文件来合成语音了,在此之前需要做一些准备工作。

将我们想要合成的文本写入一个文件test.txt,每句话按行分隔,如下所示:

徐玠诡谲多智,善揣摩,知道徐知询不可辅佐,掌握着他的短处以归附徐知诰。许乐夫生于山东省临朐县杨善镇大辛庄,毕业于抗大一分校。宣统元年(1909年),顺德绅士冯国材在香山大黄圃成立安洲农务分会,管辖东海十六沙,冯国材任总理。学生们大多住在校区宿舍,通过参加不同的体育文化俱乐部及社交活动,形成一个友谊长存的社会圈。学校的“三节一会”(艺术节、社团节、科技节、运动会)是显示青春才华的盛大活动。雪是先天自闭症患者,不懂与人沟通,却拥有灵敏听觉,而且对复杂动作过目不忘。勋章通过一柱状螺孔和螺钉附着在衣物上。

运行以下命令进行合成:

CUDA_VISIBLE_DEVICES=0 python kantts/bin/text_to_wav.py --txt test.txt --output_dir res/SSB0009_syn --res_zip speech_sambert-hifigan_tts_zh-cn_multisp_pretrain_16k/resource.zip --am_ckpt training_stage/SSB0009_sambert_ckpt/ckpt/checkpoint_1100000.pth --voc_ckpt training_stage/SSB0009_hifigan_ckpt/ckpt/checkpoint_2100000.pth --speaker SSB0009

完成后在res/SSB0009_syn/res_wavs文件夹下就可以获得合成结果


│   ├── 8_0_dur.txt│   ├── 8_0_energy.txt│   ├── 8_0_f0.txt│   ├── 8_0_mel.npy│   ├── 8_1_dur.txt│   ├── 8_1_energy.txt│   ├── 8_1_f0.txt│   └── 8_1_mel.npy├── res_wavs│   ├── 0.wav│   ├── 1.wav│   ├── 2.wav│   ├── 3.wav│   ├── 4.wav│   ├── 5.wav│   ├── 6.wav├── stdout.log└── symbols.lst

以下分别为原始录音及合成样音

ModelScope语音合成模型原理

在ModelScope魔搭社区上大家体验到的语音合成技术是达摩院语音实验室显式韵律声学模型SAMBERT以及HiFi-GAN声码器的结合。

在语音合成领域,类似FastSpeech2的Parallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题,例如,独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定。

因此达摩院语音实验室设计了SAMBERT,一种基于Parallel结构的改良版TTS模型,它具有以下优点:

  1. 建立时长与基频、能量的依赖关系,并使用自回归结构的时长预测模块,提升预测韵律的自然度和多样性;
  2. Decoder使用PNCA自回归结构,降低带宽要求,支持CPU实时合成;
  3. 音素级别建模基频、能量,提高容错率;
  4. 以预训练BERT语言模型为编码器,在小规模数据上效果更好。

image.png

相关文章
|
存储 JSON 自然语言处理
手把手教你使用ModelScope训练一个文本分类模型
手把手教你使用ModelScope训练一个文本分类模型
|
计算机视觉
教你如何玩转Modelscope (一、图片编辑与描述生成)
本文通过一个有趣的图片处理例子,教你如何利用modelscope强大且多样的模型能力去解锁你专属的图片编辑能力。
3676 1
教你如何玩转Modelscope (一、图片编辑与描述生成)
|
自然语言处理 语音技术 开发工具
CosyVoice再升级,可扩展流式语音合成
通义实验室在前期的工作中提出了基于监督离散语音标记的多语言语音合成模型CosyVoice。通过使用两种流行的生成模型:语言模型 (LM) 和流匹配进行渐进式语义解码,CosyVoice 在语音语境学习中实现了较高的韵律自然度、内容一致性和说话人相似性。
2607 2
CosyVoice再升级,可扩展流式语音合成
|
SQL Oracle 关系型数据库
"揭秘!一键解锁Oracle日志清理魔法,让海量归档日志无处遁形,守护数据库健康,告别磁盘空间告急噩梦!"
【8月更文挑战第9天】随着Oracle数据库在企业应用中的普及,归档日志管理对保持数据库健康至关重要。归档日志记录所有更改,对数据恢复极为重要,但也可能迅速占用大量磁盘空间影响性能。利用Oracle提供的RMAN工具,可通过编写Shell脚本来自动清理归档日志。脚本包括设置环境变量、连接数据库、检查和删除指定时间前的日志,并记录执行情况。通过Cron作业定时运行脚本,可有效管理日志文件,确保数据库稳定运行。
705 7
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
存储 人工智能 机器人
LangChain结合LLM做私有化文档搜索
我们知道LLM(大语言模型)的底模是基于已经过期的公开数据训练出来的,对于新的知识或者私有化的数据LLM一般无法作答,此时LLM会出现“幻觉”。针对“幻觉”问题,一般的解决方案是采用RAG做检索增强。
LangChain结合LLM做私有化文档搜索
|
数据采集 人工智能 Python
【AI Agent系列】【MetaGPT】9. 一句话订阅专属信息 - 订阅智能体进阶,实现一个更通用的订阅智能体(2)
【AI Agent系列】【MetaGPT】9. 一句话订阅专属信息 - 订阅智能体进阶,实现一个更通用的订阅智能体(2)
834 1
|
机器学习/深度学习 并行计算 算法
ICASSP 2023论文模型开源|语音分离Mossformer
ICASSP 2023论文模型开源|语音分离Mossformer
1389 0
ICASSP 2023论文模型开源|语音分离Mossformer
|
缓存 网络协议 JavaScript
【面试题】前端面试复习6---性能优化
【面试题】前端面试复习6---性能优化
442 1
|
人工智能 自然语言处理 测试技术
AI 模型的基准测试
在评估一个模型的时候,仅通过ROUGE、BLEU SCORE评价模型还是太单薄了,并不能全面的反馈模型的能力。在相完整评估一个模型的能力的时候,最重要的是提供一套有效的评估模型。现在常见的模型的基准测试有 GLUE、SuperGLUE、HELM、MMLU等等。
735 1

热门文章

最新文章