【技术揭秘】阿里语音AI : KAN-TTS语音合成技术

简介: 近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。
来源 阿里语音AI 公众号

关键词:语音合成 Knowledge-awareNeural TTS KAN-TTS 在线中文实时语音合成

近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统1。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。

相对而言,从1960年左右起步的基于计算机的语音合成技术,在过去60年左右的时间在系统各个模块都积累了深厚的domain knowledge,包括语音信号处理、文本分析以及模型层面等。这些domain knowledge是基于对人的发声机理、听觉感知机理以及语言学等方面进行深入研究得到的积累,这些domain knowledge的共同作用构建了传统语音合成系统3[5]。

image.png

上图对比了传统语音合成系统以及End2end语音合成系统的框图。在传统语音合成系统中,输入文本经过了多个模块,根据多个domainknowledge,形成了Rich context linguistic information,后端模型根据前面的结果,结合acoustic feature进行建模及预测,最终的结果再经过Vocoder得到合成语音。而End2end系统中,输入文本只经过了Text Normalize模块形成完全是汉字的序列,直接输入到后端模型中进行建模和预测。在传统语音合成系统中的大多数domain knowledge被End2end系统忽略了。

基于研究人员的美好愿望,End2end的语音合成技术对这些积累的domain knowledge只利用了非常少的一部分,期望完全摒弃domain knowledge,通过强大的模型技术和海量数据得到足够好的语音合成系统。但是,从实际效果来看,End2end系统产生的合成语音包含一系列问题,困扰了最新的语音合成技术的产品化。

KAN-TTS的前世:传统语音合成技术和End2end技术哪家强

近年来,End2end技术1(即端到端技术)在语音合成领域发展迅速,该技术摒弃了传统语音合成技术的前端-后端多模型多模块框架,采用了统一的模型由文本级别的输入直接预测输出的语音。只要结合海量数据,研究人员都可以利用该技术”傻瓜化”的构建End2end语音合成系统,并生成不错的合成效果。

另一方面,传统语音合成系统从基于HMM的参数/拼接系统3发展到后来的基于深度神经网络的语音合成系统[5],至今在语音合成主流产品中依然占据绝对主导地位。虽然该技术机械感比较明显,音质较差,但相对于End2end系统而言,其合成语音的稳定性较高,尤其是多音字发音消歧和控制停顿方面,都有比较明显的优势。

KAN-TTS的今生:Hybrid系统横空出世

不同的系统采用了不同的domain knowledge,因此最终产生了不同的音质、自然度效果,以及不同的稳定性表现。从最终效果来看,我们一方面希望获得End2end系统中明显更好的音质和自然度,另一方面也希望获得传统语音合成系统中的稳定性。

因此,结合了传统语音合成系统和End2end语音合成系统,我们构建了一个hybrid系统,即Knowledge-aware Neural TTS (KAN-TTS)技术。该技术充分结合了domain knowledge和End2end语音合成技术,在传统语音合成系统的基础上,基于End2end语音合成技术对各种domain knowledge进行充分利用,从而构建了高表现力高稳定性的在线中文实时语音合成系统。

和传统语音合成系统以及End2end系统对比,主要包括这几个方面的不同:

1.Linguisticdomain knowledge方面:在KAN-TTS中,我们利用了海量文本相关数据构建了高稳定性的domain knowledge分析模块。例如在多音字消歧模块中,我们利用了包含多音字的上百万文本/发音数据训练得到多音字消歧模型,从而获得更准确的发音。如果像End2end系统那样完全基于语音数据进行训练,光是包含多音字的数据就需要上千小时,这对于常规数据在几小时到几十小时的语音合成领域而言,是不可接受的。

2.Acousticmodel方面:在KAN-TTS中,考虑到深度学习技术的快速进展以及End2end模型的合成效果,我们也采用了seq2seq模型作为声学模型,同时结合海量数据,进一步提高了整体模型的效果和稳定性。

3.Acousticfeature和Vocoder层面:在KAN-TTS系统中,我们采用了和End2end系统类似的FFT spectrum作为声学特征,信息上损失更小,同时采用更强大的声码器恢复波形,因此在音质方面具有明显优势。

image.png

上图中显示了KAN-TTS的基本框图。在KAN-TTS中,经过一系列实验对比,我们最终采用了如上图所示的domain knowledge作为后端模型的输入。

KAN-TTS:更多的domain knowledge

除了深度融合传统语音合成系统以及End2end系统,构建KAN-TTS系统。我们还融合了其他多个方面的domain knowledge,这其中最重要的是基于中文的linguistic knowledge、基于海量语音数据的声学空间构建以及针对特定发音人、特定风格的迁移学习技术。

1.基于海量数据的模型构建:为了尽可能的利用更广泛的数据,我们利用了上百个人的几百小时数据构建了基于海量数据的多发音人语音合成系统。相对而言,在传统语音合成系统中,单发音人数据量往往在几个小时到几十小时不等。利用海量发音人的数据构建的语音合成系统,可以提供更稳定的合成效果,为最终构建高稳定性语音合成产品打下了基础。

image.png

2.针对特定数据的迁移方法:由于采用了大量不同发音人数据进行语音合成系统构建,虽然我们利用了多发音人的大量数据,得以产生高稳定性合成语音。但我们发对特定发音人或者特定风格而言,其效果距离真实录音而言还是具有一定差距。因此,我们参考了其他领域对训练数据比例的研究,在多发音人模型的基础上进一步尝试了针对特定发音人、特定风格数据的迁移学习。实验表明,叠加迁移学习后,合成语音的效果可以进一步提高,逼近真实录音的效果。

image.png

KAN-TTS:非异构计算的工程优化

随着深度学习技术的进步,模型的建模能力越来越强大,随之而来的计算量需求也越来越高。近年来,很多公司都采用异构计算进行模型的inference,例如采用高性能或者inference专用GPU,甚至采用FPGA/ASIC这样的专用芯片技术,来加速inference部分的计算,服务实际需求。

我们仔细对比了不同的inference方案,考虑到我们最终的使用场景要求,对快速扩展的要求,甚至客户不同机器的部署能力,我们最终选择以非异构计算的形式进行inference计算,即不采用任何异构计算的模块,包括GPU/FPGA/ASIC等。

根据KAN-TTS的特性,以及语音合成服务的需求,我们针对性的做了若干优化,包括模型层面的算法优化以及工程层面的框架和指令集优化。最终,经过我们的一系列优化,效果如下图所示:

image.png

其中RTF是借鉴了语音识别中的指标,即Real Time Factor,度量合成1s的一句话所需要的计算时间。QPS为实际同时能够支撑的服务请求数。

KAN-TTS的几大优势

1.KAN-TTSVS. End2end系统
从我们实际实践中发现,End2end系统最大的问题是丢字漏字和多音字发音错误两类问题。由于End2end系统的输入是中文汉字,而汉字的数量很多,在训练数据中覆盖较差,分布也不均匀,因此导致了大量句子都出现了丢字漏字的情况;另外,由于前文中介绍的原因,由于语音数据量总是远远小于文本数据的,基于现在的语音数据,End2end系统中多音字覆盖也较差,所以也会大量的出现多音字发音错误问题。

image.png

上图显示了End2end系统和KAN-TTS在丢字漏字和多音字发音错误这两个问题上的对比,其中多音字发音错误以“为”这个字的情况代表。

从上图中可以看到,KAN-TTS在这两个问题上都显著超越了End2end系统。其原因主要为KAN-TTS中结合了传统语音合成系统,充分利用了多个方面的domain knowledge。因此在合成语音的稳定性上,可以获得和传统语音合成系统类似的结果。

2. KAN-TTS VS.传统语音合成系统

image.png

上图中显示了针对其中一个发音人的数据,KAN-TTS技术在不同改进下的效果变化。其中MOS为Mean Opinion Score的缩写,是语音合成领域主观测试打分标准,满分为5分,越大越好。为了度量技术的实际作用,我们采用了MOS%的形式进行对比,即以Recording得分作为分母,将不同系统的MOS得分除以Recording得分,从而得以度量不同系统主观得分距离Recording的差距,越接近100%为越好,而Recording的得分始终为100%。
从上图中我们可以看到,传统拼接系统和传统参数系统[5]分别可以获得85%~90%的接近程度,这里的差别与发音人风格、数据量都比较相关;当采用了KAN-TTS技术时,即便只是基于Single Speaker的数据,都可以获得95%以上的接近程度;而采用了multi-speaker以及transfer learning技术之后,在自然度上可以获得97%以上的接近程度。

3. 低成本精品定制(声音克隆)

为特定发音人或者特定风格定制TTS声音是TTS领域不断持续的实际业务需求。例如客户会有为自己的独家IP定制特色风格声音的TTS,以及期望获得与竞品不同的用户体验。在传统TTS定制的时候,由于受限于技术框架,整个精品定制需要的数据量是2万句话(20小时)左右。而按照TTS数据录制的高标准要求,2万句话往往对应着半年以上的录音周期,也需要发音人连续不断的进行高质量高可靠性的录音工作,这就为实际的定制项目带来了一定的风险(发音人感冒发烧等状况会直接影响嗓子的发挥)。

基于KAN-TTS,由于我们采用了新一代的语音合成技术,基于更强大的模型以及成百上千个发音人数据得到的模型,这使得我们可以利用更少量的数据构建效果更好的TTS声音。

image.png

上图显示了基于KAN-TTS框架下,不同数据量所带来的定制效果。可以看出,即便是在2小时(2000句)以下的数据量时,基于KAN-TTS定制也可以取得不错的定制效果,和10小时时差距不大,明显超过95%和真人录音接近程度。

相对于传统定制而言,基于KAN-TTS的定制可以将数据量缩小到之前的十分之一,同时,定制周期也会从之前的半年以上缩短到一个月左右,定制效果也会从传统TTS效果显著提升到高表现力的KAN-TTS效果。现在,我们已经推出了基于KAN-TTS的定制服务,可以参考下面这个页面了解具体的信息和定制流程。

https://ai.aliyun.com/nls/customtts?spm=5176.12061040.1228967.1.11b04779xrAzng

结语

Knowledge-awareNeural TTS(KAN-TTS)技术是结合了我们最新的语音技术、海量的文本和声学数据以及大规模计算能力,对语音合成技术进行的改进。

我们通过深度融合了传统语音合成技术以及End2end系统,并结合各种domain knowledge,从而提供高表现力高稳定性的在线实时语音合成服务。同时,考虑到客户的实际需求,我们采用了完全基于CPU的服务部署方式,并推出了低成本精品定制,可以基于客户的实际需求进行部署客户和声音定制。现在,用户可以在阿里云官网(https://ai.aliyun.com/nls/tts)感受到Knowledge-aware Neural TTS(KAN-TTS)的合成效果。

在未来的工作中,我们还将基于KAN-TTS技术对语音合成技术做进一步的改进,提供给大家更好的语音合成服务。

[1] Yuxuan Wang, RJ Skerry-Ryan, et al. "Tacotron:Towards End-to-End Speech Synthesis", Interspeech 2017.

[2] Jonathan Shen, Ruoming Pang, et al. "NaturalTTS Synthesis by Conditioning
Wavenet on MEL Spectrogram Predictions",ICASSP 2018.

[3] K Tokuda, T Yoshimura, T Masuko, TKobayashi, T Kitamura, "Speech parametergeneration algorithms for HMM-based speech synthesis", ICASSP 2000.

[4] ZH Ling, RH Wang, "HMM-based hierarchical unit selection combining Kullback-Leiblerdivergence with likelihood criterion", ICASSP 2007.

[5] Heiga Zen, Andrew Senior, Mike Schuster,"Statistical Parametric Speech Synthesis Using DeepNeural Networks",ICASSP 2013.

[6] Changhao Shan, Lei Xie, Kaisheng Yao, "ABi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese",ISCSLP 2016.

[7] Chuang Ding, Lei Xie, Jie Yan, Weini Zhang, Yang Liu, "AutomaticProsody Prediction for Chinese Speech Synthesis using BLSTM-RNN and EmbeddingFeatures", ASRU 2015.

[8] Ming Lei, Yijian Wu, Frank K. Soong,Zhen-Hua Ling, Lirong Dai, "A Hierarchical F0 Modeling Method forHMM-Based Speech Synthesis", Interspeech 2010.

[9] Zhen-HuaLing , Zhi-Guo Wang, Li-Rong Dai, "Statistical Modeling ofSyllable-Level F0 Features for HMM-based Unit Selection Speech Synthesis",ISCSLP 2010.

[10] T. Drugman and T. Dutoit, "Thedeterministic plus stochastic model of the residual signal and its applications",IEEE Trans. Audio, Speech and Language Processing, vol. 20, no. 3, pp. 968–981,March 2012.

[11] T. Raitio, A. Suni, J. Yamagishi, H.Pulakka, J. Nurminen, M. Vainio, and P. Alku, "HMM-based speech synthesisutilizing glottal inverse filtering", IEEE Trans. on Audio, Speech, andLang. Proc., vol. 19, no. 1, pp. 153–165, Jan. 2011.

[12] Yu-An Chung, Yuxuan Wang, Wei-NingHsu, Yu Zhang, RJ Skerry-Ryan, "Semi-Supervised Training for ImprovingData Efficiency in End-to-End Speech Synthesis",https://arxiv.org/abs/1808.10128

相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
58 10
|
6天前
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
162 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
4天前
|
人工智能 安全 算法
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
2024年12月11日,由中国计算机学会计算机视觉专委会主办的“打造大模型时代的可信AI”论坛在上海举行。论坛汇聚了来自多家知名学术机构和企业的顶尖专家,围绕AI的技术风险与治理挑战,探讨如何在大模型时代确保AI的安全性和可信度,推动技术创新与安全治理并行。论坛重点关注计算机视觉领域的最新进展,提出了多项技术手段和治理框架,为AI的健康发展提供了有力支持。
28 8
深度剖析 打造大模型时代的可信AI:技术创新与安全治理并重
|
4天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
11天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
3天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
32 14
|
4天前
|
传感器 机器学习/深度学习 人工智能
AI视频监控卫士技术介绍:智能化河道管理解决方案
AI视频监控卫士系统,通过高清摄像头、智能传感器和深度学习技术,实现河道、水库、城市水务及生态保护区的全天候、全覆盖智能监控。系统能够自动识别非法行为、水质变化和异常情况,并实时生成警报,提升管理效率和精准度。
34 13
|
2天前
|
存储 人工智能 运维
AI-Native的路要怎么走?一群技术“老炮儿”指明了方向
上世纪70年代,沃兹尼亚克、乔布斯等人成立Homebrew Computer Club,推动个人电脑普及。如今,创原会承袭这一精神,由CNCF执行董事Priyanka Sharma等构建,聚焦云原生和AI技术,汇聚各行业技术骨干,探索前沿科技。2024年创原会年度峰会达成“全面拥抱AI-Native”共识,解决算力与存储瓶颈,推动AI原生应用开发,助力千行万业智能化转型,成为行业创新风向标。
|
4天前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
16 6
|
9天前
|
机器学习/深度学习 人工智能 监控
AI视频监控技术的核心优势与实践
AI视频监控技术结合了计算机视觉、深度学习和大数据分析,能够实时分析监控画面,识别异常行为和场景变化。其核心在于从“被动记录”转型为“主动识别”,提升监控效率并减少安全隐患。主要应用场景包括泳池管理、健身器械区域、人员密度预警和异常事件检测。系统架构支持多种摄像头设备,采用边缘计算和Docker部署,具备实时性、高准确率和扩展性等优势。未来将优化复杂场景适应性和实时计算负载,进一步提高系统性能。

热门文章

最新文章