开发者社区> 技术小达人> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

如何打造真人化高表现力的语音合成系统

简介: 音合成技术作为人机交互的重要环节,终极目标即达到媲美真人的合成效果。高表现力语音合成逐渐成为未来的趋势。高表现力语音有三个显著的特点:韵律自然、情感风格丰富和音质清澈。 需要认识到的是当下的技术水平在韵律自然表示、情感风格丰富度上和真人之间还存在着较大的、人耳容易分辨的差距。 因此,我们针对这三个特点,进行算法上的探索,形成达摩院第五代语音合成技术——基于韵律建模的 SAM-BERT、情感语音合成 Emotion TTS 和高清语音合成 HiFi-TTS 的 Expressive-TTS。
+关注继续查看

No.1 基于韵律建模的 SAM-BERT 

近几年,语音合成技术发展迅速,虽然合成语音的效果也在逐步提升,但是合成语音在韵律(一般指的是音调起伏、能量起伏和语速变化等)自然度上和真人还有明显差距。

学术界中,提升韵律的方法有很多,韵律建模是经过验证比较有效的方法。韵律建模就是使得模型能够提取或者预测出韵律表征,它可以大致地被分为两类:显式韵律建模和隐式韵律建模。显式韵律建模和隐式韵律建模的区别主要在于韵律表征是否具有实际的物理意义。

在显式韵律建模中,建模的韵律表征主要指一些有实际物理意义的韵律表征,例如:基频、能量和时长,这些韵律表征可以基于信号的知识直接提取;在隐式韵律建模中,建模的韵律表征一般需要通过构建额外的提取器来获得,提取的韵律表征没有实际的物理意义,是一种隐式表征。

640.jpg

显式韵律建模代表性的工作是2020年被提出的 FastSpeech2,它通过引入Variance Adaptor分别对基频(pitch)、能量(energy)和时长(duration)三种韵律表征进行显式建模,一定程度上克服了TTS的one-to-many问题,显著提升了合成语音的表现力。以此为基础,学术界、工业界开始进行更深入的显式韵律建模分析优化工作。如何提升显式韵律建模的鲁棒性,怎样建模不同韵律表征间的关联关系以及如何流式生成等问题成为新的热点。


为此,我们开展了韵律建模的改造以及 Decoder 的设计,形成了阿里基于显式韵律建模的声学模型 SAM-BERT1. 音素级别的基频和能量,先预测韵律轮廓,再通过 Decoder 进行细粒度建模,使得整体合成声音更加稳定;2. 时长预测与基频和能量相关联,并采用自回归的结构,使得合成声音的韵律更加自然流畅;3. 采用 PNCA AR-Decoder,支持 CPU 流式实时合成;

4. Encoder 部分用 BERT 进行初始化,引入更多的文本信息,提升合成韵律。

image.png

虽然显式韵律建模展现出了更好的效果,但是这种方法还存在一些问题。1. 显式的韵律成分存在提取不准的问题,以基频为例,一般会采用信号处理的工具来提取基频信息,不能够保证基频提取的准确度,这不仅影响基频预测模块的训练,还会影响语音合成的效果;2. 对于不同的韵律成分(基频和能量),该方法采用分离的模型进行建模,没有考虑到这些韵律成分之间的关联性;

3. 韵律具有非常高的变化性,不同人说不同话的韵律可能会千差万别,大部分已有方法均采用有限的语音合成数据进行韵律建模,这样必然达不到很好的建模效果。

针对显式韵律建模的问题,我们与浙江大学合作提出了一种高表现力的隐式韵律建模声学模型(ProsoSpeech),它采用量化隐藏韵律矢量(latent prosody vectors, LPV)来表示韵律,然后通过预训练模型来对韵律进行建模,预训练期间采用了大量低质量的语音识别数据。从最终效果上看,会比显式韵律建模更优。该工作发表在 ICASSP 2022 详情可参阅:

https://arxiv.org/abs/2202.07816(请复制到浏览器打开)

640 (17).png

No.2 情感语音合成 Emotional TTS 

情感语音合成指的是给定同一句话,发音人可以合成不同情感的语音,例如,开心、悲伤、兴奋和激动等。数据驱动是最直接也是最有效的方式,在 speaker embedding 基础上,我们加入 emotion embedding 对情感进行向量表示。同时,我们还引入细粒度控制能力,通过对停顿、时长、基频和能量的细粒度控制,使得合成的情感声音更具表现力。

image.png

No.3 高清语音合成 HiFi-TTS 

什么是高清语音合成?以视频为例,市面上的视频平台都有以下画质选项:360P、480P、720P、1080P、2K 和 4K 等,随着数字增加,视频的清晰度越高。

音频也有类似的音质分级,这个采样率是决定音质的一个重要指标,常用的采样率有:8k、16k、22.05k、24k、44.1k 和 48k 等。48k 音频的听感体验,就好比 4K 视频带来的震撼享受。本文这里,高清语音合成专指采样率为 48kHz 的语音合成。

高采样率对于模型的建模能力要求更高,包括声学模型和声码器。对于声学模型,我们采用 SAM-BERT,通过实验验证,SAM-BERT 的建模能力完全满足 48k 的语音合成。因此,高清语音合成部分的探索主要集中在声码器。

对于大部分云端语音合成,由于基于神经网络的声码器的高音质的优点,它已经成为了标配。主流的神经网络声码器可以大致分为两类:自回归和非自回归的声码器。自回归的声码器有:WaveNet、WaveRNN 和 LPCNet 等;非自回归的声码器有:Flow-based、GAN-based、DPM-based 等。

在进行高清语音合成探索之前,综合性能、效果和稳定性,在8k和16k的场景下,我们采用 LPCNet 作为神经网络声码器。在当时,我们考虑直接在 LPCNet 上合成48k的声音,但是通过论文调研和一些初步的实验发现,LPCNet 存在比较大的局限性:

1. 基于线性预测系数(Linear Prediction Coefficient, LPC)假设,推广能力不足;

2. 基于逐点的交叉熵(Cross Entropy, CE)损失函数,在非语音部分不合理;

3. 基于自回归的声码器,性能差。

所以,我们参考学术界的研究进展采用了一种基于 GAN 的框架,它主要有三个特点:

1. 利用判别器(D)来指导声码器 (即生成器G) 的训练;2. 基于 MSD 和 MPD 建模语音中信号的平稳特性和周期特性,相比于 CE loss,能够达到对声音更好的还原效果;

3. 对生成器和判别器的结构进行相应改造,使其在48k采样率下有更稳定的合成效果。

image.png

Future work


经历了拼接合成和基于 HMM 的统计参数合成、基于 DNN 的统计参数合成、KAN-TTS 及技术矩阵完善的几代语音合成技术的发展,阿里语音合成形成了云-端、标准化-个性化的原子能力矩阵,服务于集团内业务并在阿里云对外输出。

接下来我们将会在深度生成模型的加持下,运用大规模数据训练技术,充分挖掘语音语义理解,逐步降低对高质量数据资源的依赖,从而打造真人化的更高表现力的语音合成系统。


参考文献:1. Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint  2018.2. Li N, Liu Y, Wu Y, et al. Robutrans: A robust transformer-based text-to-speech model[C] // Proceedings of the AAAI Conference on Artificial Intelligence. 20203. Ren Y, Hu C, Tan X, et al. Fastspeech 2: Fast and high-quality end-to-end text to speech[J]. arXiv preprint 2020.4. Ren Y, Lei M, Huang Z, et al. Prosospeech: Enhancing Prosody with Quantized Vector Pre-Training in Text-To-Speech[C] // ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
设计手机直播源码后台系统,不容忽视的四个要点
设计手机直播源码后台系统,不容忽视的四个要点
38 0
Go 语言如何进行 RPC 调用
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 今天我们来了解一下 Go 语言是如何进行远程方法调用的,远程方法调用是服务间进行通信的基础方式之一,是 Go 语言实现微服务架构必须掌握的开发知识和原理。
1514 0
代码补全快餐教程(4) - 训练语言模型
本节我们学习如何训练一个语言模型,并用于代码补全中
3147 0
微软 WPC 2014 合作伙伴keynote
本周一,2014 微软WPC (Worldwide Partner Conference) 合作者伙伴大会在美国华盛顿开幕,微软除了介绍了Azure、云端化的Office 365和Windows Phone移动平台之外,还简单提及了下一代Windows操作系统Windows 9的发展规划。
853 0
Android系统移植与调试之------->如何修改开机动画的两种方式剖析
首先,我们先来分析一下源码: frameworks/base/cmds/bootanimation/BootAnimation.cpp 首先看一下定义的常量: BootAnimation::readyToRun() 进...
948 0
4、系统调用
系统调用   在系统中真正被所有进程都使用的内核通信方式是系统调用。例如当进程请求内核服务时,就使用的是系统调用。一般情况下,进程是不能够存取系统内核的。它不 能存取内核使用的内存段,也不能调用内核函数,CPU的硬件结构保证了这一点。
547 0
1101
文章
0
问答
来源圈子
更多
相关文档: 智能语音交互
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载