达摩院 KAN-TTS|学习笔记

简介: 快速学习达摩院 KAN-TTS

开发者学堂课程【达摩院智能语音交互 - 语音合成技术达摩院KAN-TTS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/981


达摩院KAN-TTS


KAN-TTS

Knowledge-aware Neural TTS 系统中,结合传统语音合成技术与端到端语音合成技术。输入的文本经过与传统语音合成系统类似的模块,得到相应的语言学信息。

image.png

这些语言学信息再输入端到端模型进行建模,没有采用所有的语言学信息,因为经过细致的分析和实验,仅采用这些原学信息可以获得比采用所有语言学特征更好的效果。

为了进一步提高合成效果以及稳定性,还利用了上百个人的几百小时数据,构建了基于海量数据的多翻译成语音合成系统,并在多翻译能模型的基础上,尝试了针对特定发音人,特定风格数据的迁移学习。

实验结果表明,采用迁移学习后,合成效果得到了进一步提升,逼近了真实录音的效果。

之前介绍过端到端系统中存在效果不稳定的问题,最主要的是丢字漏字问题,以及多音字的发音错误问题,因为端到端系统直接输入文本,音库对于文本以及多音字的覆盖率是比较有限的。

在系统中,结合了传统的语音合成系统,其中利用了海量文本,相关数据训练的高稳定性的文本分析模块。在合成语音的稳定性上,可以得到传统语音合成系统相当的一个效果。

KAN-TTS优势

(1)优势一:高表现力

Knowledge-aware Neural TTS 系统相对于传统的 TTS 系统具有两大优势,一个是高表现力。

MOS是云合成领域主观测试打分标准,满分为五分,为了便于衡量合成语音与录音的差距,将录音的MOS作为基准,将各系统的MOS除以录音的MOS,分子越接近于百分百,说明合成的效果越好,录音的得分,始终为百分百。

image.png

从图上可以看到,传统的拼接合成系统和传统的参数系统分别可以获得85%-90%的接近录音程度,采用了 Knowledge-aware Neural TTS 系统,新歌 speaker 数据也可获得95%以上的接近录音的程度,采用了多发音能以及迁移学习技术之后,可以获得97%以上的相似度。可以听一下案例,例举了三个例子

传统的拼接合成系统的合成效果。

传统的参数合成的效果。

现在的合成效果。

(2)超低成本

第二个优势,是超低成本,现在这种定制方案相对于传统的定制方案,在需要的用户规模、需要的录音时间以及以及录音的成本上,相对于传统方案都有明显的一个优势

相关文章
|
数据可视化 API 开发者
通俗易懂:一步步教你 Flask 项目自动生成 API 文档
Flasgger,作为一款强大的 Flask 扩展,自动从 Flask 应用中提取并生成 OpenAPI 规范文档,配备 SwaggerUI,为开发者提供了一条快捷通道,让 API 的文档编制和交互式测试变得简单易行。Flasgger 的设计原则是简化开发流程,通过与 Flask 框架的无缝整合,让开发者可以更专注于应用逻辑的构建。
|
10月前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
1410 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
机器人 C++ Python
ROS2教程 02 功能包
本文是关于ROS2(机器人操作系统2)中功能包(package)管理的教程,介绍了如何检查功能包的依赖、创建新功能包、列出可执行文件、列出所有功能包、查询功能包的位置和描述信息,以及为C++和Python功能包配置必要的文件。
559 0
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
1053 42
‘conda‘不是内部或外部命令,也不是可运行的程序或批处理文件。
‘conda‘不是内部或外部命令,也不是可运行的程序或批处理文件。
5408 1
‘conda‘不是内部或外部命令,也不是可运行的程序或批处理文件。
|
12月前
|
存储 监控 安全
告别手动续签烦恼:一键实现免费SSL证书自动更新
告别手动续签烦恼,一键实现免费SSL证书自动更新。通过自动化续签过程,减少人为错误,提高安全性,节省时间,确保网站始终提供安全、可信的服务。选择支持自动续签的证书颁发机构,并配置相应的工具,轻松管理SSL证书。
|
搜索推荐 机器人 数据处理
基于大语言模型的 FireRedTTS 语音合成系统
【10月更文挑战第3天】近年来,随着人工智能技术的发展,基于大语言模型的语音合成系统备受关注。FireRedTTS 系统由郭浩瀚等人提出,旨在满足多样化的语音合成需求。该系统分为数据处理、基础系统和下游应用三部分,通过高质量数据集和语义感知架构生成高保真语音信号。其应用场景包括配音和聊天机器人,能够实现零样本语音克隆和可控类人语音合成,提供自然且个性化的交互体验。然而,系统仍面临计算资源和完全自然语音合成等方面的挑战。[了解更多](https://arxiv.org/abs/2409.03283)
1039 3
|
Python Windows
ImportError: No module named ‘encodings’
ImportError: No module named ‘encodings’
1389 0
|
分布式计算 并行计算 大数据
NumPy 并行计算与分布式部署
【8月更文第30天】随着数据量的不断增长,传统的单机计算模型已经难以满足对大规模数据集处理的需求。并行和分布式计算成为了处理这些大数据集的关键技术。虽然 NumPy 本身并不直接支持并行计算,但可以通过结合其他库如 Numba 和 Dask 来实现高效的并行和分布式计算。
226 1
|
Docker 容器
gitlab推送企业微信几种方式汇总(二)
gitlab推送企业微信几种方式汇总(二)
3519 1
gitlab推送企业微信几种方式汇总(二)