达摩院 KAN-TTS|学习笔记

简介: 快速学习达摩院 KAN-TTS

开发者学堂课程【达摩院智能语音交互 - 语音合成技术达摩院KAN-TTS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/981


达摩院KAN-TTS


KAN-TTS

Knowledge-aware Neural TTS 系统中,结合传统语音合成技术与端到端语音合成技术。输入的文本经过与传统语音合成系统类似的模块,得到相应的语言学信息。

image.png

这些语言学信息再输入端到端模型进行建模,没有采用所有的语言学信息,因为经过细致的分析和实验,仅采用这些原学信息可以获得比采用所有语言学特征更好的效果。

为了进一步提高合成效果以及稳定性,还利用了上百个人的几百小时数据,构建了基于海量数据的多翻译成语音合成系统,并在多翻译能模型的基础上,尝试了针对特定发音人,特定风格数据的迁移学习。

实验结果表明,采用迁移学习后,合成效果得到了进一步提升,逼近了真实录音的效果。

之前介绍过端到端系统中存在效果不稳定的问题,最主要的是丢字漏字问题,以及多音字的发音错误问题,因为端到端系统直接输入文本,音库对于文本以及多音字的覆盖率是比较有限的。

在系统中,结合了传统的语音合成系统,其中利用了海量文本,相关数据训练的高稳定性的文本分析模块。在合成语音的稳定性上,可以得到传统语音合成系统相当的一个效果。

KAN-TTS优势

(1)优势一:高表现力

Knowledge-aware Neural TTS 系统相对于传统的 TTS 系统具有两大优势,一个是高表现力。

MOS是云合成领域主观测试打分标准,满分为五分,为了便于衡量合成语音与录音的差距,将录音的MOS作为基准,将各系统的MOS除以录音的MOS,分子越接近于百分百,说明合成的效果越好,录音的得分,始终为百分百。

image.png

从图上可以看到,传统的拼接合成系统和传统的参数系统分别可以获得85%-90%的接近录音程度,采用了 Knowledge-aware Neural TTS 系统,新歌 speaker 数据也可获得95%以上的接近录音的程度,采用了多发音能以及迁移学习技术之后,可以获得97%以上的相似度。可以听一下案例,例举了三个例子

传统的拼接合成系统的合成效果。

传统的参数合成的效果。

现在的合成效果。

(2)超低成本

第二个优势,是超低成本,现在这种定制方案相对于传统的定制方案,在需要的用户规模、需要的录音时间以及以及录音的成本上,相对于传统方案都有明显的一个优势

相关文章
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
4053 0
|
3月前
|
Docker 容器 持续交付
如何快速搭建 ERPNext Demo 演示?
ERPNext Demo 是一个预设数据的轻量化系统,帮助用户快速体验其核心功能。本文介绍四种快速搭建方法:Docker容器部署、自动化工具、云平台一键部署及源码定制化部署,适用于展示、培训、远程演示等场景,助力高效传递系统价值。
如何快速搭建 ERPNext Demo 演示?
|
8月前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
1070 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
8月前
|
Java Maven 开发者
编写SpringBoot的自定义starter包
通过本文的介绍,我们详细讲解了如何创建一个Spring Boot自定义Starter包,包括自动配置类、配置属性类、`spring.factories`文件的创建和配置。通过自定义Starter,可以有效地复用公共配置和组件,提高开发效率。希望本文能帮助您更好地理解和应用Spring Boot自定义Starter,在实际项目中灵活使用这一强大的功能。
618 17
|
SQL 网络安全 数据库
机房电脑下载并安装SQL Server的详细步骤
在机房电脑上下载并安装SQL Server是一个常见的任务,特别是对于学习数据库管理或进行相关项目开发的学生和开发者来说
|
关系型数据库 MySQL 数据库连接
解决 mysql8.0 ERROR 1045 (28000): Access denied for user ‘ODBC‘@‘localhost‘ (using password: NO)用户访问拒绝
解决 mysql8.0 ERROR 1045 (28000): Access denied for user ‘ODBC‘@‘localhost‘ (using password: NO)用户访问拒绝
6354 52
解决 mysql8.0 ERROR 1045 (28000): Access denied for user ‘ODBC‘@‘localhost‘ (using password: NO)用户访问拒绝
|
11月前
|
Kubernetes Linux 调度
【赵渝强老师】K8s的周期性任务控制器CronJob
本文介绍了K8s中的CronJob控制器,它类似于Linux的crontab命令,用于管理和调度定时作业。CronJob可以设置在未来某一时间运行作业一次或在指定时间点重复运行作业。文章通过一个示例展示了如何创建和使用CronJob控制器,包括创建配置文件、应用配置、查看Pod信息和日志等步骤。同时,还解释了CronJob的时间表示方式及其限制。
208 0
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
2257 5
|
小程序 搜索推荐 JavaScript
美食推荐|美食推荐小程序|基于微信小程序的美食推荐系统设计与实现(源码+数据库+文档)
美食推荐|美食推荐小程序|基于微信小程序的美食推荐系统设计与实现(源码+数据库+文档)
405 2
|
存储 算法 测试技术