达摩院 KAN-TTS|学习笔记

简介: 快速学习达摩院 KAN-TTS

开发者学堂课程【达摩院智能语音交互 - 语音合成技术达摩院KAN-TTS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/981


达摩院KAN-TTS


KAN-TTS

Knowledge-aware Neural TTS 系统中,结合传统语音合成技术与端到端语音合成技术。输入的文本经过与传统语音合成系统类似的模块,得到相应的语言学信息。

image.png

这些语言学信息再输入端到端模型进行建模,没有采用所有的语言学信息,因为经过细致的分析和实验,仅采用这些原学信息可以获得比采用所有语言学特征更好的效果。

为了进一步提高合成效果以及稳定性,还利用了上百个人的几百小时数据,构建了基于海量数据的多翻译成语音合成系统,并在多翻译能模型的基础上,尝试了针对特定发音人,特定风格数据的迁移学习。

实验结果表明,采用迁移学习后,合成效果得到了进一步提升,逼近了真实录音的效果。

之前介绍过端到端系统中存在效果不稳定的问题,最主要的是丢字漏字问题,以及多音字的发音错误问题,因为端到端系统直接输入文本,音库对于文本以及多音字的覆盖率是比较有限的。

在系统中,结合了传统的语音合成系统,其中利用了海量文本,相关数据训练的高稳定性的文本分析模块。在合成语音的稳定性上,可以得到传统语音合成系统相当的一个效果。

KAN-TTS优势

(1)优势一:高表现力

Knowledge-aware Neural TTS 系统相对于传统的 TTS 系统具有两大优势,一个是高表现力。

MOS是云合成领域主观测试打分标准,满分为五分,为了便于衡量合成语音与录音的差距,将录音的MOS作为基准,将各系统的MOS除以录音的MOS,分子越接近于百分百,说明合成的效果越好,录音的得分,始终为百分百。

image.png

从图上可以看到,传统的拼接合成系统和传统的参数系统分别可以获得85%-90%的接近录音程度,采用了 Knowledge-aware Neural TTS 系统,新歌 speaker 数据也可获得95%以上的接近录音的程度,采用了多发音能以及迁移学习技术之后,可以获得97%以上的相似度。可以听一下案例,例举了三个例子

传统的拼接合成系统的合成效果。

传统的参数合成的效果。

现在的合成效果。

(2)超低成本

第二个优势,是超低成本,现在这种定制方案相对于传统的定制方案,在需要的用户规模、需要的录音时间以及以及录音的成本上,相对于传统方案都有明显的一个优势

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Pika推出AI配音工具Sound Effects
【2月更文挑战第24天】Pika推出AI配音工具Sound Effects
66 1
Pika推出AI配音工具Sound Effects
|
1月前
|
数据采集 人工智能 PyTorch
极智AI | 昇腾CANN ATC模型转换
大家好,我是极智视界,本文介绍一下 昇腾 CANN ATC 模型转换。
193 0
|
1月前
|
人工智能 缓存 自然语言处理
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
TTS它又来了!OpenVoice:一款借鉴于TTS实现的强大的AI语音克隆工具!
383 1
|
机器学习/深度学习 人工智能 自然语言处理
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(四)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
914 0
|
机器学习/深度学习 自然语言处理 前端开发
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
279 1
|
机器学习/深度学习 算法 语音技术
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(三)
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型
679 0
|
人工智能 算法 API
iOS MachineLearning 系列(13)—— 语音与音频相关的AI能力
在语音分析方面,iOS中提供了原生的Speech框架,这个框架可以实时的将语音解析成文本。这个能力非常强大,使用它我们可以实现类似实时翻译的功能。对于非语音的音频,也有一些原生的AI能力可以使用,例如分析语音的类型。SoundAnalysis框架能够识别300多种声音,我们也可以使用自己训练的模型来处理定制化的音频识别需求。
261 0
|
机器学习/深度学习 自然语言处理 达摩院
语音合成技术|学习笔记
快速学习语音合成技术
407 0
语音合成技术|学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
语音合成技术及应用 | 学习笔记
快速学习 语音合成技术及应用
331 0
语音合成技术及应用 | 学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
TTS语音合成技术
一, 语音合成技术原理 语音合成(test to speech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。
5000 0

热门文章

最新文章