语音合成技术|学习笔记

简介: 快速学习语音合成技术

开发者学堂课程【达摩院智能语音交互 - 语音合成技术语音合成技术】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/46/detail/980


语音合成技术


语音合成技术

介绍语音合成的流程,首先介绍传统的语音合成,包含语音合成前端以及语音合成后端。语音合成前端主要是文本分析器,它的输入是文本输出,是包含语言学信息的因素序列。

image.png

语音合成后端,输入是音素序列,输出是语音。它包含市场模型、频谱、基频、模型。通过市场模型可以得到每个因素持续的时间,通过频谱基频模型可以得到语音真的频谱跟基频参数,最后通过声码器得到合成语音。

image.png

在端到端语音合成系统中主要包含了端到端的一个模型,它的输入是文本,输出是合成语音。先看传统的语音合成前端。传统的语音合成前端,它的输入是录音文本,输出是对应的韵律文本。举个例子,一来二去,张玉芝把小家欣当成亲孙女,这是录音文本,这两行则是文本分析前端的结果,是韵律文本。

image.png

它包含了韵律边界,PP 表示并列短语边界,TW表示并列词边界,律词边界跟韵律短语边界,它的停顿是不一样的。下面这一行是对应的拼音以及声调,这两行就是韵律文本,通过韵律文本就可以转换得到上下文相关的因素序列。

下面是前端文本处理的流程。首先,输入文本,经过分词模块得到语法词信息,再通过词性标注模块得到每个语法词的词性。通过命名实体识别模块。对特定意义的实体进行识别。比如人名、地名、机构名等等。这里的张玉芝就是一个人名。然后再通过预测韵律短预测模块得到韵律词韵律短语的边界。通过多音字、消极模块得到每一个多音字所对应的发音,比如这里的当成是多音字,然后通过字音转换得到输出韵律文本。

image.png

对于传统的语音合成后端,基于HMM模型的语音合成后端为例进行介绍。它主要包括训练和合成两大部分。在训练过程中,利用HMM模型的训练方法对时长、基频以及普参数进行建模,训练得到的模型包括了时长,基频以及参数的聚类 HMM 模型以及各自的决策树。

在合成过程中,首先对输入文本进行文本分析得到我们所需要的上下文相关音素序列。然后根据这些上下文属性,分别通过时长基频跟普参数的聚类决策树进行决策,得到预测的时长以及相应的模型序列。最后,根据模型基于参数生成算法来生成基频和普参数,并通过合成器合成最后的语音。

image.png

传统的语音合成,优点是合成效率比较高,合成语音平滑稳定。但由于前端模块需要较强的语言学知识,增加了系统构建的难度。后端模块需要对语音的发生机理以及信号处理有了解,另外,建模时的一些假设会造成信息的损失,因此存在音质不够高以及韵律比较平淡的问题。

这些问题促使了端到端语音合成的出现。研究人员希望能够使合成系统尽量的简化,减少人工干预和建模中的假设,端到端语音合成系统,直接输入文本系统,直接输出音频的波形。例如Char2wav , Tacotron,这些均为端到端的语音合成方法,是编码器解码器结构的一个端到端语音合成系统。文本首先通过编码器进行编码,再通过带有注意力机制的一个解码器进行解码,然后通过new work order直接得到合成语音。

image.png

这一类方法,它的优点是不需要中间特征。也不需要通过时长切分进行增和音素的对齐,可以进行联合的优化,合成语音的韵律更加自然流畅,但是在中文中用户规模的限制,端到端语音合成存在效果不稳定的问题,因此产品化的难度比较大。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
5月前
|
语音技术 人工智能 机器学习/深度学习
构建基于AI的语音合成系统:技术探索与实践
【6月更文挑战第3天】本文探讨了构建基于AI的语音合成系统,包括文本预处理、声学模型、语音生成和后期处理四个步骤。关键技术和挑战涉及分词、词性标注、语调预测、HMM、DNN、RNN模型、波形合成及后期音质优化。实践中,获取高质量语音数据、训练计算资源和系统实时性是主要挑战。随着技术进步,未来语音合成将在多语种、个性化领域有更多应用。
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
44558 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
|
机器学习/深度学习 自然语言处理 达摩院
语音合成简介|学习笔记
快速学习语音合成简介
351 0
语音合成简介|学习笔记
|
算法 语音技术 开发工具
通过 SDK 使用语音合成功能 | 学习笔记
快速学习 通过 SDK 使用语音合成功能
178 0
|
机器学习/深度学习 人工智能 自然语言处理
语音合成技术及应用 | 学习笔记
快速学习 语音合成技术及应用
451 0
语音合成技术及应用 | 学习笔记
|
机器学习/深度学习 人工智能 自然语言处理
TTS语音合成技术
一, 语音合成技术原理 语音合成(test to speech),简称TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。
5785 0
|
语音技术 开发工具 Python
Python 技术篇-百度语音合成SDK接口调用演示
Python 技术篇-百度语音合成SDK接口调用演示
335 0
Python 技术篇-百度语音合成SDK接口调用演示
|
API 语音技术 Python
Python 技术篇-百度语音合成API接口调用演示
Python 技术篇-百度语音合成API接口调用演示
405 0
Python 技术篇-百度语音合成API接口调用演示
|
机器学习/深度学习 人工智能 前端开发
【技术揭秘】阿里语音AI : KAN-TTS语音合成技术
近几年,End2end技术发展迅速,在各个领域都有广泛的研究。在语音合成领域,研究人员也提出了基于End2end技术的语音合成系统。在End2end语音合成系统中,只需要文本和对应的wav数据,任何人都可以利用强大的深度学习技术得到还不错的合成语音。
【技术揭秘】阿里语音AI : KAN-TTS语音合成技术