【技术揭秘】阿里语音AI : KAN-TTS语音合成技术

简介: 近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。
来源 阿里语音AI 公众号

关键词:语音合成 Knowledge-awareNeural TTS KAN-TTS 在线中文实时语音合成

近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统1。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。

相对而言,从1960年左右起步的基于计算机的语音合成技术,在过去60年左右的时间在系统各个模块都积累了深厚的domain knowledge,包括语音信号处理、文本分析以及模型层面等。这些domain knowledge是基于对人的发声机理、听觉感知机理以及语言学等方面进行深入研究得到的积累,这些domain knowledge的共同作用构建了传统语音合成系统3[5]。

image.png

上图对比了传统语音合成系统以及End2end语音合成系统的框图。在传统语音合成系统中,输入文本经过了多个模块,根据多个domainknowledge,形成了Rich context linguistic information,后端模型根据前面的结果,结合acoustic feature进行建模及预测,最终的结果再经过Vocoder得到合成语音。而End2end系统中,输入文本只经过了Text Normalize模块形成完全是汉字的序列,直接输入到后端模型中进行建模和预测。在传统语音合成系统中的大多数domain knowledge被End2end系统忽略了。

基于研究人员的美好愿望,End2end的语音合成技术对这些积累的domain knowledge只利用了非常少的一部分,期望完全摒弃domain knowledge,通过强大的模型技术和海量数据得到足够好的语音合成系统。但是,从实际效果来看,End2end系统产生的合成语音包含一系列问题,困扰了最新的语音合成技术的产品化。

KAN-TTS的前世:传统语音合成技术和End2end技术哪家强

近年来,End2end技术1(即端到端技术)在语音合成领域发展迅速,该技术摒弃了传统语音合成技术的前端-后端多模型多模块框架,采用了统一的模型由文本级别的输入直接预测输出的语音。只要结合海量数据,研究人员都可以利用该技术”傻瓜化”的构建End2end语音合成系统,并生成不错的合成效果。

另一方面,传统语音合成系统从基于HMM的参数/拼接系统3发展到后来的基于深度神经网络的语音合成系统[5],至今在语音合成主流产品中依然占据绝对主导地位。虽然该技术机械感比较明显,音质较差,但相对于End2end系统而言,其合成语音的稳定性较高,尤其是多音字发音消歧和控制停顿方面,都有比较明显的优势。

KAN-TTS的今生:Hybrid系统横空出世

不同的系统采用了不同的domain knowledge,因此最终产生了不同的音质、自然度效果,以及不同的稳定性表现。从最终效果来看,我们一方面希望获得End2end系统中明显更好的音质和自然度,另一方面也希望获得传统语音合成系统中的稳定性。

因此,结合了传统语音合成系统和End2end语音合成系统,我们构建了一个hybrid系统,即Knowledge-aware Neural TTS (KAN-TTS)技术。该技术充分结合了domain knowledge和End2end语音合成技术,在传统语音合成系统的基础上,基于End2end语音合成技术对各种domain knowledge进行充分利用,从而构建了高表现力高稳定性的在线中文实时语音合成系统。

和传统语音合成系统以及End2end系统对比,主要包括这几个方面的不同:

1.Linguisticdomain knowledge方面:在KAN-TTS中,我们利用了海量文本相关数据构建了高稳定性的domain knowledge分析模块。例如在多音字消歧模块中,我们利用了包含多音字的上百万文本/发音数据训练得到多音字消歧模型,从而获得更准确的发音。如果像End2end系统那样完全基于语音数据进行训练,光是包含多音字的数据就需要上千小时,这对于常规数据在几小时到几十小时的语音合成领域而言,是不可接受的。

2.Acousticmodel方面:在KAN-TTS中,考虑到深度学习技术的快速进展以及End2end模型的合成效果,我们也采用了seq2seq模型作为声学模型,同时结合海量数据,进一步提高了整体模型的效果和稳定性。

3.Acousticfeature和Vocoder层面:在KAN-TTS系统中,我们采用了和End2end系统类似的FFT spectrum作为声学特征,信息上损失更小,同时采用更强大的声码器恢复波形,因此在音质方面具有明显优势。

image.png

上图中显示了KAN-TTS的基本框图。在KAN-TTS中,经过一系列实验对比,我们最终采用了如上图所示的domain knowledge作为后端模型的输入。

KAN-TTS:更多的domain knowledge

除了深度融合传统语音合成系统以及End2end系统,构建KAN-TTS系统。我们还融合了其他多个方面的domain knowledge,这其中最重要的是基于中文的linguistic knowledge、基于海量语音数据的声学空间构建以及针对特定发音人、特定风格的迁移学习技术。

1.基于海量数据的模型构建:为了尽可能的利用更广泛的数据,我们利用了上百个人的几百小时数据构建了基于海量数据的多发音人语音合成系统。相对而言,在传统语音合成系统中,单发音人数据量往往在几个小时到几十小时不等。利用海量发音人的数据构建的语音合成系统,可以提供更稳定的合成效果,为最终构建高稳定性语音合成产品打下了基础。

image.png

2.针对特定数据的迁移方法:由于采用了大量不同发音人数据进行语音合成系统构建,虽然我们利用了多发音人的大量数据,得以产生高稳定性合成语音。但我们发对特定发音人或者特定风格而言,其效果距离真实录音而言还是具有一定差距。因此,我们参考了其他领域对训练数据比例的研究,在多发音人模型的基础上进一步尝试了针对特定发音人、特定风格数据的迁移学习。实验表明,叠加迁移学习后,合成语音的效果可以进一步提高,逼近真实录音的效果。

image.png

KAN-TTS:非异构计算的工程优化

随着深度学习技术的进步,模型的建模能力越来越强大,随之而来的计算量需求也越来越高。近年来,很多公司都采用异构计算进行模型的inference,例如采用高性能或者inference专用GPU,甚至采用FPGA/ASIC这样的专用芯片技术,来加速inference部分的计算,服务实际需求。

我们仔细对比了不同的inference方案,考虑到我们最终的使用场景要求,对快速扩展的要求,甚至客户不同机器的部署能力,我们最终选择以非异构计算的形式进行inference计算,即不采用任何异构计算的模块,包括GPU/FPGA/ASIC等。

根据KAN-TTS的特性,以及语音合成服务的需求,我们针对性的做了若干优化,包括模型层面的算法优化以及工程层面的框架和指令集优化。最终,经过我们的一系列优化,效果如下图所示:

image.png

其中RTF是借鉴了语音识别中的指标,即Real Time Factor,度量合成1s的一句话所需要的计算时间。QPS为实际同时能够支撑的服务请求数。

KAN-TTS的几大优势

1.KAN-TTSVS. End2end系统
从我们实际实践中发现,End2end系统最大的问题是丢字漏字和多音字发音错误两类问题。由于End2end系统的输入是中文汉字,而汉字的数量很多,在训练数据中覆盖较差,分布也不均匀,因此导致了大量句子都出现了丢字漏字的情况;另外,由于前文中介绍的原因,由于语音数据量总是远远小于文本数据的,基于现在的语音数据,End2end系统中多音字覆盖也较差,所以也会大量的出现多音字发音错误问题。

image.png

上图显示了End2end系统和KAN-TTS在丢字漏字和多音字发音错误这两个问题上的对比,其中多音字发音错误以“为”这个字的情况代表。

从上图中可以看到,KAN-TTS在这两个问题上都显著超越了End2end系统。其原因主要为KAN-TTS中结合了传统语音合成系统,充分利用了多个方面的domain knowledge。因此在合成语音的稳定性上,可以获得和传统语音合成系统类似的结果。

2. KAN-TTS VS.传统语音合成系统

image.png

上图中显示了针对其中一个发音人的数据,KAN-TTS技术在不同改进下的效果变化。其中MOS为Mean Opinion Score的缩写,是语音合成领域主观测试打分标准,满分为5分,越大越好。为了度量技术的实际作用,我们采用了MOS%的形式进行对比,即以Recording得分作为分母,将不同系统的MOS得分除以Recording得分,从而得以度量不同系统主观得分距离Recording的差距,越接近100%为越好,而Recording的得分始终为100%。
从上图中我们可以看到,传统拼接系统和传统参数系统[5]分别可以获得85%~90%的接近程度,这里的差别与发音人风格、数据量都比较相关;当采用了KAN-TTS技术时,即便只是基于Single Speaker的数据,都可以获得95%以上的接近程度;而采用了multi-speaker以及transfer learning技术之后,在自然度上可以获得97%以上的接近程度。

3. 低成本精品定制(声音克隆)

为特定发音人或者特定风格定制TTS声音是TTS领域不断持续的实际业务需求。例如客户会有为自己的独家IP定制特色风格声音的TTS,以及期望获得与竞品不同的用户体验。在传统TTS定制的时候,由于受限于技术框架,整个精品定制需要的数据量是2万句话(20小时)左右。而按照TTS数据录制的高标准要求,2万句话往往对应着半年以上的录音周期,也需要发音人连续不断的进行高质量高可靠性的录音工作,这就为实际的定制项目带来了一定的风险(发音人感冒发烧等状况会直接影响嗓子的发挥)。

基于KAN-TTS,由于我们采用了新一代的语音合成技术,基于更强大的模型以及成百上千个发音人数据得到的模型,这使得我们可以利用更少量的数据构建效果更好的TTS声音。

image.png

上图显示了基于KAN-TTS框架下,不同数据量所带来的定制效果。可以看出,即便是在2小时(2000句)以下的数据量时,基于KAN-TTS定制也可以取得不错的定制效果,和10小时时差距不大,明显超过95%和真人录音接近程度。

相对于传统定制而言,基于KAN-TTS的定制可以将数据量缩小到之前的十分之一,同时,定制周期也会从之前的半年以上缩短到一个月左右,定制效果也会从传统TTS效果显著提升到高表现力的KAN-TTS效果。现在,我们已经推出了基于KAN-TTS的定制服务,可以参考下面这个页面了解具体的信息和定制流程。

https://ai.aliyun.com/nls/customtts?spm=5176.12061040.1228967.1.11b04779xrAzng

结语

Knowledge-awareNeural TTS(KAN-TTS)技术是结合了我们最新的语音技术、海量的文本和声学数据以及大规模计算能力,对语音合成技术进行的改进。

我们通过深度融合了传统语音合成技术以及End2end系统,并结合各种domain knowledge,从而提供高表现力高稳定性的在线实时语音合成服务。同时,考虑到客户的实际需求,我们采用了完全基于CPU的服务部署方式,并推出了低成本精品定制,可以基于客户的实际需求进行部署客户和声音定制。现在,用户可以在阿里云官网(https://ai.aliyun.com/nls/tts)感受到Knowledge-aware Neural TTS(KAN-TTS)的合成效果。

在未来的工作中,我们还将基于KAN-TTS技术对语音合成技术做进一步的改进,提供给大家更好的语音合成服务。

[1] Yuxuan Wang, RJ Skerry-Ryan, et al. "Tacotron:Towards End-to-End Speech Synthesis", Interspeech 2017.

[2] Jonathan Shen, Ruoming Pang, et al. "NaturalTTS Synthesis by Conditioning
Wavenet on MEL Spectrogram Predictions",ICASSP 2018.

[3] K Tokuda, T Yoshimura, T Masuko, TKobayashi, T Kitamura, "Speech parametergeneration algorithms for HMM-based speech synthesis", ICASSP 2000.

[4] ZH Ling, RH Wang, "HMM-based hierarchical unit selection combining Kullback-Leiblerdivergence with likelihood criterion", ICASSP 2007.

[5] Heiga Zen, Andrew Senior, Mike Schuster,"Statistical Parametric Speech Synthesis Using DeepNeural Networks",ICASSP 2013.

[6] Changhao Shan, Lei Xie, Kaisheng Yao, "ABi-directional LSTM Approach for Polyphone Disambiguation in Mandarin Chinese",ISCSLP 2016.

[7] Chuang Ding, Lei Xie, Jie Yan, Weini Zhang, Yang Liu, "AutomaticProsody Prediction for Chinese Speech Synthesis using BLSTM-RNN and EmbeddingFeatures", ASRU 2015.

[8] Ming Lei, Yijian Wu, Frank K. Soong,Zhen-Hua Ling, Lirong Dai, "A Hierarchical F0 Modeling Method forHMM-Based Speech Synthesis", Interspeech 2010.

[9] Zhen-HuaLing , Zhi-Guo Wang, Li-Rong Dai, "Statistical Modeling ofSyllable-Level F0 Features for HMM-based Unit Selection Speech Synthesis",ISCSLP 2010.

[10] T. Drugman and T. Dutoit, "Thedeterministic plus stochastic model of the residual signal and its applications",IEEE Trans. Audio, Speech and Language Processing, vol. 20, no. 3, pp. 968–981,March 2012.

[11] T. Raitio, A. Suni, J. Yamagishi, H.Pulakka, J. Nurminen, M. Vainio, and P. Alku, "HMM-based speech synthesisutilizing glottal inverse filtering", IEEE Trans. on Audio, Speech, andLang. Proc., vol. 19, no. 1, pp. 153–165, Jan. 2011.

[12] Yu-An Chung, Yuxuan Wang, Wei-NingHsu, Yu Zhang, RJ Skerry-Ryan, "Semi-Supervised Training for ImprovingData Efficiency in End-to-End Speech Synthesis",https://arxiv.org/abs/1808.10128

相关文章
|
9天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
26天前
|
人工智能 自然语言处理 Swift
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用和进一步研究。
|
27天前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
29 2
|
1月前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
211 1
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
52 10
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
5天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
11天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
10天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
16天前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
245 33

热门文章

最新文章

下一篇
DataWorks