达摩院 KAN-TTS|学习笔记-阿里云开发者社区

达摩院 KAN-TTS|学习笔记

2022-11-23 640

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习达摩院 KAN-TTS

开发者学堂课程【达摩院智能语音交互 - 语音合成技术：达摩院KAN-TTS】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/46/detail/981

达摩院KAN-TTS

KAN-TTS

Knowledge-aware Neural TTS 系统中，结合传统语音合成技术与端到端语音合成技术。输入的文本经过与传统语音合成系统类似的模块，得到相应的语言学信息。

这些语言学信息再输入端到端模型进行建模，没有采用所有的语言学信息，因为经过细致的分析和实验，仅采用这些原学信息可以获得比采用所有语言学特征更好的效果。

为了进一步提高合成效果以及稳定性，还利用了上百个人的几百小时数据，构建了基于海量数据的多翻译成语音合成系统，并在多翻译能模型的基础上，尝试了针对特定发音人，特定风格数据的迁移学习。

实验结果表明，采用迁移学习后，合成效果得到了进一步提升，逼近了真实录音的效果。

之前介绍过端到端系统中存在效果不稳定的问题，最主要的是丢字漏字问题，以及多音字的发音错误问题，因为端到端系统直接输入文本，音库对于文本以及多音字的覆盖率是比较有限的。

在系统中，结合了传统的语音合成系统，其中利用了海量文本，相关数据训练的高稳定性的文本分析模块。在合成语音的稳定性上，可以得到传统语音合成系统相当的一个效果。

KAN-TTS优势

（1）优势一:高表现力

Knowledge-aware Neural TTS 系统相对于传统的 TTS 系统具有两大优势，一个是高表现力。

MOS是云合成领域主观测试打分标准，满分为五分,为了便于衡量合成语音与录音的差距，将录音的MOS作为基准，将各系统的MOS除以录音的MOS，分子越接近于百分百，说明合成的效果越好，录音的得分，始终为百分百。

从图上可以看到，传统的拼接合成系统和传统的参数系统分别可以获得85%-90%的接近录音程度，采用了 Knowledge-aware Neural TTS 系统，新歌 speaker 数据也可获得95%以上的接近录音的程度，采用了多发音能以及迁移学习技术之后，可以获得97%以上的相似度。可以听一下案例，例举了三个例子

传统的拼接合成系统的合成效果。

传统的参数合成的效果。

现在的合成效果。

（2）超低成本

第二个优势，是超低成本，现在这种定制方案相对于传统的定制方案，在需要的用户规模、需要的录音时间以及以及录音的成本上，相对于传统方案都有明显的一个优势。

达摩院 KAN-TTS|学习笔记

达摩院KAN-TTS

KAN-TTS

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书