【技术揭秘】阿里语音AI : KAN-TTS语音合成技术-阿里云开发者社区

来源阿里语音AI 公众号

关键词：语音合成 Knowledge-awareNeural TTS KAN-TTS 在线中文实时语音合成

近几年，End2end技术发展迅速，在各个领域都有广泛的研究。在语音合成领域，研究人员也提出了基于End2end技术的语音合成系统1。在End2end语音合成系统中，只需要文本和对应的wav数据，任何人都可以利用强大的深度学习技术得到还不错的合成语音。

相对而言，从1960年左右起步的基于计算机的语音合成技术，在过去60年左右的时间在系统各个模块都积累了深厚的domain knowledge，包括语音信号处理、文本分析以及模型层面等。这些domain knowledge是基于对人的发声机理、听觉感知机理以及语言学等方面进行深入研究得到的积累，这些domain knowledge的共同作用构建了传统语音合成系统3[5]。

上图对比了传统语音合成系统以及End2end语音合成系统的框图。在传统语音合成系统中，输入文本经过了多个模块，根据多个domainknowledge，形成了Rich context linguistic information，后端模型根据前面的结果，结合acoustic feature进行建模及预测，最终的结果再经过Vocoder得到合成语音。而End2end系统中，输入文本只经过了Text Normalize模块形成完全是汉字的序列，直接输入到后端模型中进行建模和预测。在传统语音合成系统中的大多数domain knowledge被End2end系统忽略了。

基于研究人员的美好愿望，End2end的语音合成技术对这些积累的domain knowledge只利用了非常少的一部分，期望完全摒弃domain knowledge，通过强大的模型技术和海量数据得到足够好的语音合成系统。但是，从实际效果来看，End2end系统产生的合成语音包含一系列问题，困扰了最新的语音合成技术的产品化。

KAN-TTS的前世：传统语音合成技术和End2end技术哪家强

近年来，End2end技术1（即端到端技术）在语音合成领域发展迅速，该技术摒弃了传统语音合成技术的前端-后端多模型多模块框架，采用了统一的模型由文本级别的输入直接预测输出的语音。只要结合海量数据，研究人员都可以利用该技术”傻瓜化”的构建End2end语音合成系统，并生成不错的合成效果。

另一方面，传统语音合成系统从基于HMM的参数/拼接系统3发展到后来的基于深度神经网络的语音合成系统[5]，至今在语音合成主流产品中依然占据绝对主导地位。虽然该技术机械感比较明显，音质较差，但相对于End2end系统而言，其合成语音的稳定性较高，尤其是多音字发音消歧和控制停顿方面，都有比较明显的优势。

KAN-TTS的今生：Hybrid系统横空出世

不同的系统采用了不同的domain knowledge，因此最终产生了不同的音质、自然度效果，以及不同的稳定性表现。从最终效果来看，我们一方面希望获得End2end系统中明显更好的音质和自然度，另一方面也希望获得传统语音合成系统中的稳定性。

因此，结合了传统语音合成系统和End2end语音合成系统，我们构建了一个hybrid系统，即Knowledge-aware Neural TTS (KAN-TTS)技术。该技术充分结合了domain knowledge和End2end语音合成技术，在传统语音合成系统的基础上，基于End2end语音合成技术对各种domain knowledge进行充分利用，从而构建了高表现力高稳定性的在线中文实时语音合成系统。

和传统语音合成系统以及End2end系统对比，主要包括这几个方面的不同：

1.Linguisticdomain knowledge方面：在KAN-TTS中，我们利用了海量文本相关数据构建了高稳定性的domain knowledge分析模块。例如在多音字消歧模块中，我们利用了包含多音字的上百万文本/发音数据训练得到多音字消歧模型，从而获得更准确的发音。如果像End2end系统那样完全基于语音数据进行训练，光是包含多音字的数据就需要上千小时，这对于常规数据在几小时到几十小时的语音合成领域而言，是不可接受的。

2.Acousticmodel方面：在KAN-TTS中，考虑到深度学习技术的快速进展以及End2end模型的合成效果，我们也采用了seq2seq模型作为声学模型，同时结合海量数据，进一步提高了整体模型的效果和稳定性。

3.Acousticfeature和Vocoder层面：在KAN-TTS系统中，我们采用了和End2end系统类似的FFT spectrum作为声学特征，信息上损失更小，同时采用更强大的声码器恢复波形，因此在音质方面具有明显优势。

上图中显示了KAN-TTS的基本框图。在KAN-TTS中，经过一系列实验对比，我们最终采用了如上图所示的domain knowledge作为后端模型的输入。

KAN-TTS：更多的domain knowledge

除了深度融合传统语音合成系统以及End2end系统，构建KAN-TTS系统。我们还融合了其他多个方面的domain knowledge，这其中最重要的是基于中文的linguistic knowledge、基于海量语音数据的声学空间构建以及针对特定发音人、特定风格的迁移学习技术。

1.基于海量数据的模型构建：为了尽可能的利用更广泛的数据，我们利用了上百个人的几百小时数据构建了基于海量数据的多发音人语音合成系统。相对而言，在传统语音合成系统中，单发音人数据量往往在几个小时到几十小时不等。利用海量发音人的数据构建的语音合成系统，可以提供更稳定的合成效果，为最终构建高稳定性语音合成产品打下了基础。

2.针对特定数据的迁移方法：由于采用了大量不同发音人数据进行语音合成系统构建，虽然我们利用了多发音人的大量数据，得以产生高稳定性合成语音。但我们发对特定发音人或者特定风格而言，其效果距离真实录音而言还是具有一定差距。因此，我们参考了其他领域对训练数据比例的研究，在多发音人模型的基础上进一步尝试了针对特定发音人、特定风格数据的迁移学习。实验表明，叠加迁移学习后，合成语音的效果可以进一步提高，逼近真实录音的效果。

KAN-TTS：非异构计算的工程优化

随着深度学习技术的进步，模型的建模能力越来越强大，随之而来的计算量需求也越来越高。近年来，很多公司都采用异构计算进行模型的inference，例如采用高性能或者inference专用GPU，甚至采用FPGA/ASIC这样的专用芯片技术，来加速inference部分的计算，服务实际需求。

我们仔细对比了不同的inference方案，考虑到我们最终的使用场景要求，对快速扩展的要求，甚至客户不同机器的部署能力，我们最终选择以非异构计算的形式进行inference计算，即不采用任何异构计算的模块，包括GPU/FPGA/ASIC等。

根据KAN-TTS的特性，以及语音合成服务的需求，我们针对性的做了若干优化，包括模型层面的算法优化以及工程层面的框架和指令集优化。最终，经过我们的一系列优化，效果如下图所示：

其中RTF是借鉴了语音识别中的指标，即Real Time Factor，度量合成1s的一句话所需要的计算时间。QPS为实际同时能够支撑的服务请求数。

KAN-TTS的几大优势

1.KAN-TTSVS. End2end系统
从我们实际实践中发现，End2end系统最大的问题是丢字漏字和多音字发音错误两类问题。由于End2end系统的输入是中文汉字，而汉字的数量很多，在训练数据中覆盖较差，分布也不均匀，因此导致了大量句子都出现了丢字漏字的情况；另外，由于前文中介绍的原因，由于语音数据量总是远远小于文本数据的，基于现在的语音数据，End2end系统中多音字覆盖也较差，所以也会大量的出现多音字发音错误问题。

上图显示了End2end系统和KAN-TTS在丢字漏字和多音字发音错误这两个问题上的对比，其中多音字发音错误以“为”这个字的情况代表。

从上图中可以看到，KAN-TTS在这两个问题上都显著超越了End2end系统。其原因主要为KAN-TTS中结合了传统语音合成系统，充分利用了多个方面的domain knowledge。因此在合成语音的稳定性上，可以获得和传统语音合成系统类似的结果。

2. KAN-TTS VS.传统语音合成系统

上图中显示了针对其中一个发音人的数据，KAN-TTS技术在不同改进下的效果变化。其中MOS为Mean Opinion Score的缩写，是语音合成领域主观测试打分标准，满分为5分，越大越好。为了度量技术的实际作用，我们采用了MOS%的形式进行对比，即以Recording得分作为分母，将不同系统的MOS得分除以Recording得分，从而得以度量不同系统主观得分距离Recording的差距，越接近100%为越好，而Recording的得分始终为100%。
从上图中我们可以看到，传统拼接系统和传统参数系统[5]分别可以获得85%~90%的接近程度，这里的差别与发音人风格、数据量都比较相关；当采用了KAN-TTS技术时，即便只是基于Single Speaker的数据，都可以获得95%以上的接近程度；而采用了multi-speaker以及transfer learning技术之后，在自然度上可以获得97%以上的接近程度。

3. 低成本精品定制（声音克隆）

为特定发音人或者特定风格定制TTS声音是TTS领域不断持续的实际业务需求。例如客户会有为自己的独家IP定制特色风格声音的TTS，以及期望获得与竞品不同的用户体验。在传统TTS定制的时候，由于受限于技术框架，整个精品定制需要的数据量是2万句话（20小时）左右。而按照TTS数据录制的高标准要求，2万句话往往对应着半年以上的录音周期，也需要发音人连续不断的进行高质量高可靠性的录音工作，这就为实际的定制项目带来了一定的风险（发音人感冒发烧等状况会直接影响嗓子的发挥）。

基于KAN-TTS，由于我们采用了新一代的语音合成技术，基于更强大的模型以及成百上千个发音人数据得到的模型，这使得我们可以利用更少量的数据构建效果更好的TTS声音。

上图显示了基于KAN-TTS框架下，不同数据量所带来的定制效果。可以看出，即便是在2小时（2000句）以下的数据量时，基于KAN-TTS定制也可以取得不错的定制效果，和10小时时差距不大，明显超过95%和真人录音接近程度。

相对于传统定制而言，基于KAN-TTS的定制可以将数据量缩小到之前的十分之一，同时，定制周期也会从之前的半年以上缩短到一个月左右，定制效果也会从传统TTS效果显著提升到高表现力的KAN-TTS效果。现在，我们已经推出了基于KAN-TTS的定制服务，可以参考下面这个页面了解具体的信息和定制流程。

https://ai.aliyun.com/nls/customtts?spm=5176.12061040.1228967.1.11b04779xrAzng

结语

Knowledge-awareNeural TTS（KAN-TTS）技术是结合了我们最新的语音技术、海量的文本和声学数据以及大规模计算能力，对语音合成技术进行的改进。

我们通过深度融合了传统语音合成技术以及End2end系统，并结合各种domain knowledge，从而提供高表现力高稳定性的在线实时语音合成服务。同时，考虑到客户的实际需求，我们采用了完全基于CPU的服务部署方式，并推出了低成本精品定制，可以基于客户的实际需求进行部署客户和声音定制。现在，用户可以在阿里云官网(https://ai.aliyun.com/nls/tts)感受到Knowledge-aware Neural TTS（KAN-TTS）的合成效果。

在未来的工作中，我们还将基于KAN-TTS技术对语音合成技术做进一步的改进，提供给大家更好的语音合成服务。

[1] Yuxuan Wang, RJ Skerry-Ryan, et al. "Tacotron:Towards End-to-End Speech Synthesis", Interspeech 2017.

[2] Jonathan Shen, Ruoming Pang, et al. "NaturalTTS Synthesis by Conditioning
Wavenet on MEL Spectrogram Predictions",ICASSP 2018.

[3] K Tokuda, T Yoshimura, T Masuko, TKobayashi, T Kitamura, "Speech parametergeneration algorithms for HMM-based speech synthesis", ICASSP 2000.

[4] ZH Ling, RH Wang, "HMM-based hierarchical unit selection combining Kullback-Leiblerdivergence with likelihood criterion", ICASSP 2007.

[5] Heiga Zen, Andrew Senior, Mike Schuster,"Statistical Parametric Speech Synthesis Using DeepNeural Networks",ICASSP 2013.

[6] Changhao Shan, Lei Xie, Kaisheng Yao, "ABi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese",ISCSLP 2016.

[7] Chuang Ding, Lei Xie, Jie Yan, Weini Zhang, Yang Liu, "AutomaticProsody Prediction for Chinese Speech Synthesis using BLSTM-RNN and EmbeddingFeatures", ASRU 2015.

[8] Ming Lei, Yijian Wu, Frank K. Soong,Zhen-Hua Ling, Lirong Dai, "A Hierarchical F0 Modeling Method forHMM-Based Speech Synthesis", Interspeech 2010.

[9] Zhen-HuaLing , Zhi-Guo Wang, Li-Rong Dai, "Statistical Modeling ofSyllable-Level F0 Features for HMM-based Unit Selection Speech Synthesis",ISCSLP 2010.

[10] T. Drugman and T. Dutoit, "Thedeterministic plus stochastic model of the residual signal and its applications",IEEE Trans. Audio, Speech and Language Processing, vol. 20, no. 3, pp. 968–981,March 2012.

[11] T. Raitio, A. Suni, J. Yamagishi, H.Pulakka, J. Nurminen, M. Vainio, and P. Alku, "HMM-based speech synthesisutilizing glottal inverse filtering", IEEE Trans. on Audio, Speech, andLang. Proc., vol. 19, no. 1, pp. 153–165, Jan. 2011.

[12] Yu-An Chung, Yuxuan Wang, Wei-NingHsu, Yu Zhang, RJ Skerry-Ryan, "Semi-Supervised Training for ImprovingData Efficiency in End-to-End Speech Synthesis",https://arxiv.org/abs/1808.10128