如何打造真人化高表现力的语音合成系统

简介: 语音合成技术作为人机交互的重要环节,终极目标即达到媲美真人的合成效果。高表现力语音合成逐渐成为未来的趋势。高表现力语音有三个显著的特点:韵律自然、情感风格丰富和音质清澈。需要认识到的是当下的技术水平在韵律自然表示、情感风格丰富度上和真人之间还存在着较大的、人耳容易分辨的差距。因此,我们针对这三个特点,进行算法上的探索,形成达摩院第五代语音合成技术——基于韵律建模的 SAM-BERT、情感语音合成 Emotion TTS 和高清语音合成 HiFi-TTS 的 Expressive-TTS。

/作者/

胡凯

语音合成技术作为人机交互的重要环节,终极目标即达到媲美真人的合成效果。高表现力语音合成逐渐成为未来的趋势。高表现力语音有三个显著的特点:韵律自然、情感风格丰富和音质清澈。

需要认识到的是当下的技术水平在韵律自然表示、情感风格丰富度上和真人之间还存在着较大的、人耳容易分辨的差距。

因此,我们针对这三个特点,进行算法上的探索,形成达摩院第五代语音合成技术——基于韵律建模的 SAM-BERT、情感语音合成 Emotion TTS 和高清语音合成 HiFi-TTS 的 Expressive-TTS。

No.1 基于韵律建模的 SAM-BERT

近几年,语音合成技术发展迅速,虽然合成语音的效果也在逐步提升,但是合成语音在韵律(一般指的是音调起伏、能量起伏和语速变化等)自然度上和真人还有明显差距。

学术界中,提升韵律的方法有很多,韵律建模是经过验证比较有效的方法。韵律建模就是使得模型能够提取或者预测出韵律表征,它可以大致地被分为两类:显式韵律建模和隐式韵律建模。显式韵律建模和隐式韵律建模的区别主要在于韵律表征是否具有实际的物理意义。

在显式韵律建模中,建模的韵律表征主要指一些有实际物理意义的韵律表征,例如:基频、能量和时长,这些韵律表征可以基于信号的知识直接提取;在隐式韵律建模中,建模的韵律表征一般需要通过构建额外的提取器来获得,提取的韵律表征没有实际的物理意义,是一种隐式表征。


显式韵律建模代表性的工作是2020年被提出的 FastSpeech2,它通过引入Variance Adaptor分别对基频(pitch)、能量(energy)和时长(duration)三种韵律表征进行显式建模,一定程度上克服了TTS的one-to-many问题,显著提升了合成语音的表现力。以此为基础,学术界、工业界开始进行更深入的显式韵律建模分析优化工作。如何提升显式韵律建模的鲁棒性,怎样建模不同韵律表征间的关联关系以及如何流式生成等问题成为新的热点。


为此,我们开展了韵律建模的改造以及 Decoder 的设计,形成了阿里基于显式韵律建模的声学模型 SAM-BERT1. 音素级别的基频和能量,先预测韵律轮廓,再通过 Decoder 进行细粒度建模,使得整体合成声音更加稳定;2. 时长预测与基频和能量相关联,并采用自回归的结构,使得合成声音的韵律更加自然流畅;3. 采用 PNCA AR-Decoder,支持 CPU 流式实时合成;

4. Encoder 部分用 BERT 进行初始化,引入更多的文本信息,提升合成韵律。

虽然显式韵律建模展现出了更好的效果,但是这种方法还存在一些问题。1. 显式的韵律成分存在提取不准的问题,以基频为例,一般会采用信号处理的工具来提取基频信息,不能够保证基频提取的准确度,这不仅影响基频预测模块的训练,还会影响语音合成的效果;2. 对于不同的韵律成分(基频和能量),该方法采用分离的模型进行建模,没有考虑到这些韵律成分之间的关联性;

3. 韵律具有非常高的变化性,不同人说不同话的韵律可能会千差万别,大部分已有方法均采用有限的语音合成数据进行韵律建模,这样必然达不到很好的建模效果。

针对显式韵律建模的问题,我们与浙江大学合作提出了一种高表现力的隐式韵律建模声学模型(ProsoSpeech),它采用量化隐藏韵律矢量(latent prosody vectors, LPV)来表示韵律,然后通过预训练模型来对韵律进行建模,预训练期间采用了大量低质量的语音识别数据。从最终效果上看,会比显式韵律建模更优。该工作发表在 ICASSP 2022 详情可参阅:

https://arxiv.org/abs/2202.07816(请复制到浏览器打开)

No.2 情感语音合成 Emotional TTS

情感语音合成指的是给定同一句话,发音人可以合成不同情感的语音,例如,开心、悲伤、兴奋和激动等。数据驱动是最直接也是最有效的方式,在 speaker embedding 基础上,我们加入 emotion embedding 对情感进行向量表示。同时,我们还引入细粒度控制能力,通过对停顿、时长、基频和能量的细粒度控制,使得合成的情感声音更具表现力。

#text: 让我们先来试试这个腮红,天呐!真是绝绝子啊!neutral音频:00:0000:03angry音频:00:0000:03calm音频:00:0000:03fear音频:00:0000:03happy音频:00:0000:03relax音频:00:0000:03sad音频:00:0000:03

No.3 高清语音合成 HiFi-TTS

什么是高清语音合成?以视频为例,市面上的视频平台都有以下画质选项:360P、480P、720P、1080P、2K 和 4K 等,随着数字增加,视频的清晰度越高。

音频也有类似的音质分级,这个采样率是决定音质的一个重要指标,常用的采样率有:8k、16k、22.05k、24k、44.1k 和 48k 等。48k 音频的听感体验,就好比 4K 视频带来的震撼享受。本文这里,高清语音合成专指采样率为 48kHz 的语音合成。

高采样率对于模型的建模能力要求更高,包括声学模型和声码器。对于声学模型,我们采用 SAM-BERT,通过实验验证,SAM-BERT 的建模能力完全满足 48k 的语音合成。因此,高清语音合成部分的探索主要集中在声码器。

对于大部分云端语音合成,由于基于神经网络的声码器的高音质的优点,它已经成为了标配。主流的神经网络声码器可以大致分为两类:自回归和非自回归的声码器。自回归的声码器有:WaveNet、WaveRNN 和 LPCNet 等;非自回归的声码器有:Flow-based、GAN-based、DPM-based 等。

在进行高清语音合成探索之前,综合性能、效果和稳定性,在8k和16k的场景下,我们采用 LPCNet 作为神经网络声码器。在当时,我们考虑直接在 LPCNet 上合成48k的声音,但是通过论文调研和一些初步的实验发现,LPCNet 存在比较大的局限性:

1. 基于线性预测系数(Linear Prediction Coefficient, LPC)假设,推广能力不足;

2. 基于逐点的交叉熵(Cross Entropy, CE)损失函数,在非语音部分不合理;

3. 基于自回归的声码器,性能差。

所以,我们参考学术界的研究进展采用了一种基于 GAN 的框架,它主要有三个特点:

1. 利用判别器(D)来指导声码器 (即生成器G) 的训练;2. 基于 MSD 和 MPD 建模语音中信号的平稳特性和周期特性,相比于 CE loss,能够达到对声音更好的还原效果;

3. 对生成器和判别器的结构进行相应改造,使其在48k采样率下有更稳定的合成效果。

#text:最当初,他只是觉得赛伦看莫颖儿的眼光温柔得超过一般父女或是师徒的感情,在观察了一段时间过后,他才逐渐确定赛伦似乎很在乎这个少女。

hifi_spk1音频:00:0000:14hifi_spk2音频:00:0000:13

Future work


经历了拼接合成和基于 HMM 的统计参数合成、基于 DNN 的统计参数合成、KAN-TTS 及技术矩阵完善的几代语音合成技术的发展,阿里语音合成形成了云-端、标准化-个性化的原子能力矩阵,服务于集团内业务并在阿里云对外输出。

接下来我们将会在深度生成模型的加持下,运用大规模数据训练技术,充分挖掘语音语义理解,逐步降低对高质量数据资源的依赖,从而打造真人化的更高表现力的语音合成系统。


参考文献:1. Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint  2018.2. Li N, Liu Y, Wu Y, et al. Robutrans: A robust transformer-based text-to-speech model[C] // Proceedings of the AAAI Conference on Artificial Intelligence. 20203. Ren Y, Hu C, Tan X, et al. Fastspeech 2: Fast and high-quality end-to-end text to speech[J]. arXiv preprint 2020.4. Ren Y, Lei M, Huang Z, et al. Prosospeech: Enhancing Prosody with Quantized Vector Pre-Training in Text-To-Speech[C] // ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE


相关文章
|
机器学习/深度学习 人工智能 达摩院
如何打造真人化高表现力的语音合成系统
音合成技术作为人机交互的重要环节,终极目标即达到媲美真人的合成效果。高表现力语音合成逐渐成为未来的趋势。高表现力语音有三个显著的特点:韵律自然、情感风格丰富和音质清澈。 需要认识到的是当下的技术水平在韵律自然表示、情感风格丰富度上和真人之间还存在着较大的、人耳容易分辨的差距。 因此,我们针对这三个特点,进行算法上的探索,形成达摩院第五代语音合成技术——基于韵律建模的 SAM-BERT、情感语音合成 Emotion TTS 和高清语音合成 HiFi-TTS 的 Expressive-TTS。
1206 0
如何打造真人化高表现力的语音合成系统
|
2月前
|
搜索推荐 机器人 数据处理
基于大语言模型的 FireRedTTS 语音合成系统
【10月更文挑战第3天】近年来,随着人工智能技术的发展,基于大语言模型的语音合成系统备受关注。FireRedTTS 系统由郭浩瀚等人提出,旨在满足多样化的语音合成需求。该系统分为数据处理、基础系统和下游应用三部分,通过高质量数据集和语义感知架构生成高保真语音信号。其应用场景包括配音和聊天机器人,能够实现零样本语音克隆和可控类人语音合成,提供自然且个性化的交互体验。然而,系统仍面临计算资源和完全自然语音合成等方面的挑战。[了解更多](https://arxiv.org/abs/2409.03283)
353 3
|
6月前
|
语音技术 人工智能 机器学习/深度学习
构建基于AI的语音合成系统:技术探索与实践
【6月更文挑战第3天】本文探讨了构建基于AI的语音合成系统,包括文本预处理、声学模型、语音生成和后期处理四个步骤。关键技术和挑战涉及分词、词性标注、语调预测、HMM、DNN、RNN模型、波形合成及后期音质优化。实践中,获取高质量语音数据、训练计算资源和系统实时性是主要挑战。随着技术进步,未来语音合成将在多语种、个性化领域有更多应用。
|
7月前
|
机器学习/深度学习 TensorFlow 语音技术
手把手教你用Python打造一个语音合成系统
手把手教你用Python打造一个语音合成系统
196 0
手把手教你用Python打造一个语音合成系统
|
机器学习/深度学习 算法 物联网
ICASSP Oral 论文:阿里提出低计算量语音合成系统,速度提升4倍
阿里巴巴语音交互智能团队提出一种基于深度前馈序列记忆网络的语音合成系统。该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的四分之一,且合成速度是后者的四倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境。
1971 0
|
算法 语音技术
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
基于MFCC特征提取和HMM模型的语音合成算法matlab仿真
|
12天前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
71 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
21天前
|
机器学习/深度学习 人工智能 Linux
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音(TTS)模型,支持13种语言,具备零样本和少样本语音合成能力,语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT,具有高度准确性和快速合成能力,适用于多种应用场景。
99 3
Fish Speech 1.5:Fish Audio 推出的零样本语音合成模型,支持13种语言
|
4月前
|
自然语言处理 语音技术 开发者
ChatTTS超真实自然的语音合成模型
ChatTTS超真实自然的语音合成模型
155 3
|
5月前
|
机器学习/深度学习 TensorFlow 语音技术
使用Python实现深度学习模型:语音合成与语音转换
【7月更文挑战第19天】 使用Python实现深度学习模型:语音合成与语音转换
123 1

热门文章

最新文章