【技术揭秘】阿里语音AI : KAN-TTS语音合成技术

简介: 近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。
来源 阿里语音AI 公众号

关键词:语音合成 Knowledge-awareNeural TTS KAN-TTS 在线中文实时语音合成

近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统1。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。

相对而言,从1960年左右起步的基于计算机的语音合成技术,在过去60年左右的时间在系统各个模块都积累了深厚的domain knowledge,包括语音信号处理、文本分析以及模型层面等。这些domain knowledge是基于对人的发声机理、听觉感知机理以及语言学等方面进行深入研究得到的积累,这些domain knowledge的共同作用构建了传统语音合成系统3[5]。

image.png

上图对比了传统语音合成系统以及End2end语音合成系统的框图。在传统语音合成系统中,输入文本经过了多个模块,根据多个domainknowledge,形成了Rich context linguistic information,后端模型根据前面的结果,结合acoustic feature进行建模及预测,最终的结果再经过Vocoder得到合成语音。而End2end系统中,输入文本只经过了Text Normalize模块形成完全是汉字的序列,直接输入到后端模型中进行建模和预测。在传统语音合成系统中的大多数domain knowledge被End2end系统忽略了。

基于研究人员的美好愿望,End2end的语音合成技术对这些积累的domain knowledge只利用了非常少的一部分,期望完全摒弃domain knowledge,通过强大的模型技术和海量数据得到足够好的语音合成系统。但是,从实际效果来看,End2end系统产生的合成语音包含一系列问题,困扰了最新的语音合成技术的产品化。

KAN-TTS的前世:传统语音合成技术和End2end技术哪家强

近年来,End2end技术1(即端到端技术)在语音合成领域发展迅速,该技术摒弃了传统语音合成技术的前端-后端多模型多模块框架,采用了统一的模型由文本级别的输入直接预测输出的语音。只要结合海量数据,研究人员都可以利用该技术”傻瓜化”的构建End2end语音合成系统,并生成不错的合成效果。

另一方面,传统语音合成系统从基于HMM的参数/拼接系统3发展到后来的基于深度神经网络的语音合成系统[5],至今在语音合成主流产品中依然占据绝对主导地位。虽然该技术机械感比较明显,音质较差,但相对于End2end系统而言,其合成语音的稳定性较高,尤其是多音字发音消歧和控制停顿方面,都有比较明显的优势。

KAN-TTS的今生:Hybrid系统横空出世

不同的系统采用了不同的domain knowledge,因此最终产生了不同的音质、自然度效果,以及不同的稳定性表现。从最终效果来看,我们一方面希望获得End2end系统中明显更好的音质和自然度,另一方面也希望获得传统语音合成系统中的稳定性。

因此,结合了传统语音合成系统和End2end语音合成系统,我们构建了一个hybrid系统,即Knowledge-aware Neural TTS (KAN-TTS)技术。该技术充分结合了domain knowledge和End2end语音合成技术,在传统语音合成系统的基础上,基于End2end语音合成技术对各种domain knowledge进行充分利用,从而构建了高表现力高稳定性的在线中文实时语音合成系统。

和传统语音合成系统以及End2end系统对比,主要包括这几个方面的不同:

1.Linguisticdomain knowledge方面:在KAN-TTS中,我们利用了海量文本相关数据构建了高稳定性的domain knowledge分析模块。例如在多音字消歧模块中,我们利用了包含多音字的上百万文本/发音数据训练得到多音字消歧模型,从而获得更准确的发音。如果像End2end系统那样完全基于语音数据进行训练,光是包含多音字的数据就需要上千小时,这对于常规数据在几小时到几十小时的语音合成领域而言,是不可接受的。

2.Acousticmodel方面:在KAN-TTS中,考虑到深度学习技术的快速进展以及End2end模型的合成效果,我们也采用了seq2seq模型作为声学模型,同时结合海量数据,进一步提高了整体模型的效果和稳定性。

3.Acousticfeature和Vocoder层面:在KAN-TTS系统中,我们采用了和End2end系统类似的FFT spectrum作为声学特征,信息上损失更小,同时采用更强大的声码器恢复波形,因此在音质方面具有明显优势。

image.png

上图中显示了KAN-TTS的基本框图。在KAN-TTS中,经过一系列实验对比,我们最终采用了如上图所示的domain knowledge作为后端模型的输入。

KAN-TTS:更多的domain knowledge

除了深度融合传统语音合成系统以及End2end系统,构建KAN-TTS系统。我们还融合了其他多个方面的domain knowledge,这其中最重要的是基于中文的linguistic knowledge、基于海量语音数据的声学空间构建以及针对特定发音人、特定风格的迁移学习技术。

1.基于海量数据的模型构建:为了尽可能的利用更广泛的数据,我们利用了上百个人的几百小时数据构建了基于海量数据的多发音人语音合成系统。相对而言,在传统语音合成系统中,单发音人数据量往往在几个小时到几十小时不等。利用海量发音人的数据构建的语音合成系统,可以提供更稳定的合成效果,为最终构建高稳定性语音合成产品打下了基础。

image.png

2.针对特定数据的迁移方法:由于采用了大量不同发音人数据进行语音合成系统构建,虽然我们利用了多发音人的大量数据,得以产生高稳定性合成语音。但我们发对特定发音人或者特定风格而言,其效果距离真实录音而言还是具有一定差距。因此,我们参考了其他领域对训练数据比例的研究,在多发音人模型的基础上进一步尝试了针对特定发音人、特定风格数据的迁移学习。实验表明,叠加迁移学习后,合成语音的效果可以进一步提高,逼近真实录音的效果。

image.png

KAN-TTS:非异构计算的工程优化

随着深度学习技术的进步,模型的建模能力越来越强大,随之而来的计算量需求也越来越高。近年来,很多公司都采用异构计算进行模型的inference,例如采用高性能或者inference专用GPU,甚至采用FPGA/ASIC这样的专用芯片技术,来加速inference部分的计算,服务实际需求。

我们仔细对比了不同的inference方案,考虑到我们最终的使用场景要求,对快速扩展的要求,甚至客户不同机器的部署能力,我们最终选择以非异构计算的形式进行inference计算,即不采用任何异构计算的模块,包括GPU/FPGA/ASIC等。

根据KAN-TTS的特性,以及语音合成服务的需求,我们针对性的做了若干优化,包括模型层面的算法优化以及工程层面的框架和指令集优化。最终,经过我们的一系列优化,效果如下图所示:

image.png

其中RTF是借鉴了语音识别中的指标,即Real Time Factor,度量合成1s的一句话所需要的计算时间。QPS为实际同时能够支撑的服务请求数。

KAN-TTS的几大优势

1.KAN-TTSVS. End2end系统
从我们实际实践中发现,End2end系统最大的问题是丢字漏字和多音字发音错误两类问题。由于End2end系统的输入是中文汉字,而汉字的数量很多,在训练数据中覆盖较差,分布也不均匀,因此导致了大量句子都出现了丢字漏字的情况;另外,由于前文中介绍的原因,由于语音数据量总是远远小于文本数据的,基于现在的语音数据,End2end系统中多音字覆盖也较差,所以也会大量的出现多音字发音错误问题。

image.png

上图显示了End2end系统和KAN-TTS在丢字漏字和多音字发音错误这两个问题上的对比,其中多音字发音错误以“为”这个字的情况代表。

从上图中可以看到,KAN-TTS在这两个问题上都显著超越了End2end系统。其原因主要为KAN-TTS中结合了传统语音合成系统,充分利用了多个方面的domain knowledge。因此在合成语音的稳定性上,可以获得和传统语音合成系统类似的结果。

2. KAN-TTS VS.传统语音合成系统

image.png

上图中显示了针对其中一个发音人的数据,KAN-TTS技术在不同改进下的效果变化。其中MOS为Mean Opinion Score的缩写,是语音合成领域主观测试打分标准,满分为5分,越大越好。为了度量技术的实际作用,我们采用了MOS%的形式进行对比,即以Recording得分作为分母,将不同系统的MOS得分除以Recording得分,从而得以度量不同系统主观得分距离Recording的差距,越接近100%为越好,而Recording的得分始终为100%。
从上图中我们可以看到,传统拼接系统和传统参数系统[5]分别可以获得85%~90%的接近程度,这里的差别与发音人风格、数据量都比较相关;当采用了KAN-TTS技术时,即便只是基于Single Speaker的数据,都可以获得95%以上的接近程度;而采用了multi-speaker以及transfer learning技术之后,在自然度上可以获得97%以上的接近程度。

3. 低成本精品定制(声音克隆)

为特定发音人或者特定风格定制TTS声音是TTS领域不断持续的实际业务需求。例如客户会有为自己的独家IP定制特色风格声音的TTS,以及期望获得与竞品不同的用户体验。在传统TTS定制的时候,由于受限于技术框架,整个精品定制需要的数据量是2万句话(20小时)左右。而按照TTS数据录制的高标准要求,2万句话往往对应着半年以上的录音周期,也需要发音人连续不断的进行高质量高可靠性的录音工作,这就为实际的定制项目带来了一定的风险(发音人感冒发烧等状况会直接影响嗓子的发挥)。

基于KAN-TTS,由于我们采用了新一代的语音合成技术,基于更强大的模型以及成百上千个发音人数据得到的模型,这使得我们可以利用更少量的数据构建效果更好的TTS声音。

image.png

上图显示了基于KAN-TTS框架下,不同数据量所带来的定制效果。可以看出,即便是在2小时(2000句)以下的数据量时,基于KAN-TTS定制也可以取得不错的定制效果,和10小时时差距不大,明显超过95%和真人录音接近程度。

相对于传统定制而言,基于KAN-TTS的定制可以将数据量缩小到之前的十分之一,同时,定制周期也会从之前的半年以上缩短到一个月左右,定制效果也会从传统TTS效果显著提升到高表现力的KAN-TTS效果。现在,我们已经推出了基于KAN-TTS的定制服务,可以参考下面这个页面了解具体的信息和定制流程。

https://ai.aliyun.com/nls/customtts?spm=5176.12061040.1228967.1.11b04779xrAzng

结语

Knowledge-awareNeural TTS(KAN-TTS)技术是结合了我们最新的语音技术、海量的文本和声学数据以及大规模计算能力,对语音合成技术进行的改进。

我们通过深度融合了传统语音合成技术以及End2end系统,并结合各种domain knowledge,从而提供高表现力高稳定性的在线实时语音合成服务。同时,考虑到客户的实际需求,我们采用了完全基于CPU的服务部署方式,并推出了低成本精品定制,可以基于客户的实际需求进行部署客户和声音定制。现在,用户可以在阿里云官网(https://ai.aliyun.com/nls/tts)感受到Knowledge-aware Neural TTS(KAN-TTS)的合成效果。

在未来的工作中,我们还将基于KAN-TTS技术对语音合成技术做进一步的改进,提供给大家更好的语音合成服务。

[1] Yuxuan Wang, RJ Skerry-Ryan, et al. "Tacotron:Towards End-to-End Speech Synthesis", Interspeech 2017.

[2] Jonathan Shen, Ruoming Pang, et al. "NaturalTTS Synthesis by Conditioning
Wavenet on MEL Spectrogram Predictions",ICASSP 2018.

[3] K Tokuda, T Yoshimura, T Masuko, TKobayashi, T Kitamura, "Speech parametergeneration algorithms for HMM-based speech synthesis", ICASSP 2000.

[4] ZH Ling, RH Wang, "HMM-based hierarchical unit selection combining Kullback-Leiblerdivergence with likelihood criterion", ICASSP 2007.

[5] Heiga Zen, Andrew Senior, Mike Schuster,"Statistical Parametric Speech Synthesis Using DeepNeural Networks",ICASSP 2013.

[6] Changhao Shan, Lei Xie, Kaisheng Yao, "ABi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese",ISCSLP 2016.

[7] Chuang Ding, Lei Xie, Jie Yan, Weini Zhang, Yang Liu, "AutomaticProsody Prediction for Chinese Speech Synthesis using BLSTM-RNN and EmbeddingFeatures", ASRU 2015.

[8] Ming Lei, Yijian Wu, Frank K. Soong,Zhen-Hua Ling, Lirong Dai, "A Hierarchical F0 Modeling Method forHMM-Based Speech Synthesis", Interspeech 2010.

[9] Zhen-HuaLing , Zhi-Guo Wang, Li-Rong Dai, "Statistical Modeling ofSyllable-Level F0 Features for HMM-based Unit Selection Speech Synthesis",ISCSLP 2010.

[10] T. Drugman and T. Dutoit, "Thedeterministic plus stochastic model of the residual signal and its applications",IEEE Trans. Audio, Speech and Language Processing, vol. 20, no. 3, pp. 968–981,March 2012.

[11] T. Raitio, A. Suni, J. Yamagishi, H.Pulakka, J. Nurminen, M. Vainio, and P. Alku, "HMM-based speech synthesisutilizing glottal inverse filtering", IEEE Trans. on Audio, Speech, andLang. Proc., vol. 19, no. 1, pp. 153–165, Jan. 2011.

[12] Yu-An Chung, Yuxuan Wang, Wei-NingHsu, Yu Zhang, RJ Skerry-Ryan, "Semi-Supervised Training for ImprovingData Efficiency in End-to-End Speech Synthesis",https://arxiv.org/abs/1808.10128

相关文章
|
2天前
|
人工智能 算法 Serverless
上海站丨阿里云云原生技术实践营—— Serverless + AI 技术专场开启报名!
"飞天技术沙龙——Serverless 技术实践营"将于2024年5月31日举行,聚焦Serverless在AI中的应用。活动包括演讲、实操,探讨Serverless演进趋势、AI应用开发及降低成本等议题。限额80人,报名审核制,有周边礼品。扫描链接<https://summit.aliyun.com/Serverless2024shanghai>报名,现场还有大奖和证书领取。
上海站丨阿里云云原生技术实践营—— Serverless + AI 技术专场开启报名!
|
4天前
|
人工智能 IDE Devops
通义灵码技术解析,打造 AI 原生开发新范式
本文第一部分先介绍 AIGC 对软件研发的根本性影响,从宏观上介绍当下的趋势;第二部分将介绍 Copilot 模式,第三部分是未来软件研发 Agent 产品的进展。
|
4天前
|
人工智能 自然语言处理 搜索推荐
阿里通义千问的这次升级不仅带来了实实在在的利好,也为我们展示了AI技术的巨大潜力和广阔前景
【5月更文挑战第13天】阿里通义千问3月22日升级,开放1000万字长文档处理功能,成为全球处理容量最大的AI应用,超越ChatGPT等。此升级助力用户(如金融分析师、法律人士、科研人员)高效处理文档,提升工作效率,并推动AI在各行业深入应用,加速数字化转型。未来,通义千问可能发展更强大的自然语言处理能力、拓宽应用场景及提供智能个性化推荐,展现AI技术潜力与前景。
24 2
|
4天前
|
存储 机器学习/深度学习 人工智能
新一代数据库技术:融合AI的智能数据管理系统
传统数据库管理系统在数据存储和查询方面已经取得了巨大的成就,但随着数据量的不断增长和应用场景的多样化,传统数据库已经难以满足日益增长的需求。本文将介绍一种新一代数据库技术,即融合了人工智能技术的智能数据管理系统。通过结合AI的强大能力,这种系统能够实现更高效的数据管理、更智能的数据分析和更精准的数据预测,为用户带来全新的数据管理体验。
|
4天前
|
机器学习/深度学习 人工智能 算法
构建高效AI系统:深度学习优化技术解析
【5月更文挑战第12天】 随着人工智能技术的飞速发展,深度学习已成为推动创新的核心动力。本文将深入探讨在构建高效AI系统中,如何通过优化算法、调整网络结构及使用新型硬件资源等手段显著提升模型性能。我们将剖析先进的优化策略,如自适应学习率调整、梯度累积技巧以及正则化方法,并讨论其对模型训练稳定性和效率的影响。文中不仅提供理论分析,还结合实例说明如何在实际项目中应用这些优化技术。
|
4天前
|
数据采集 人工智能 自然语言处理
如何通过AI技术提升内容生产的效率和质量
利用AI提升内容生产效率涉及智能策划(数据分析、热点追踪)、自动化生成(文字、多媒体)、编辑优化(语法检查、事实核查)、个性化推荐、内容审核和合规性检查,以及数据分析反馈。AI通过减少人力成本、增强质量和吸引力,助力内容创新,预示着内容创作新时代的到来。
589 3
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术的应用和发展
【5月更文挑战第10天】AI技术的应用和发展
24 1
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
【热门话题】如何通过AI技术提升内容生产的效率与质量
本文探讨AI技术如何提升内容生产的效率与质量。通过自然语言处理(NLP)实现智能摘要、自动写作和语言风格优化;计算机视觉用于图像识别和智能设计,提升视频与图像内容生产;数据分析与预测帮助精准洞察受众需求和预测内容趋势;AI推荐系统实现个性化信息流,优化用户体验。尽管AI带来变革,但需结合人类创意与伦理监督,以促进内容产业健康发展。
24 3
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口

热门文章

最新文章