黄学东:微软TTS,第一款实时神经网络语音合成服务

简介: 就此,我们采访了微软语音、自然语言与机器翻译的技术负责人黄学东,他向我们展示了一系列 TTS 生成的「真假难辨」的语音样例,并分享了微软在 TTS 一途上的经历与考量。

一个月之前,微软发布了基于深度神经网络的文本到语音(text-to-speech,TTS)系统,并且做为 Azure 认知服务中的一项,提供面向客户的预览版本。


就此,我们采访了微软语音、自然语言与机器翻译的技术负责人黄学东,他向我们展示了一系列 TTS 生成的「真假难辨」的语音样例,并分享了微软在 TTS 一途上的经历与考量。


下面的视频里包括了三段录音与三段合成音,你能分辨出机器与人声的区别吗?


1638251017(1).png点击查看原视频链接


机器之心:微软是从什么时候开始提供 TTS 服务的?TTS 与微软语音系统的关系是什么?


事实上,TTS 是微软语音 API(Microsoft Speech API, SAPI)进入大众视野的契机。


1995 年,我作为项目负责人推出 SAPI 1.0 的目标是让人机互动更加自然。而研发 TTS(文本转语音)技术的初衷是为了给残障人士提供更多「无障碍功能」(accessibility)。1996 年,文本转语音功能被纳入 Microsoft NT 4.0 中,那是 SAPI 第一次整合进 Windows,进入大众视野。


机器之心:在神经网络用于 TTS 之前,常用的方法有哪些?


语音合成经历了许多次技术与范式的转移。


第一代 TTS 技术采用的是由麻省理工学院的教授 Dennis Klatt 提出的共振峰合成法(Formant synthesis)。这样的技术生成的语音能够被人们所理解,但是听上去特别机械。已逝的理论物理学巨匠 Stephen Hawking 在失去发声能力之后,就在使用这一套技术对外交流。


这个模型非常非常小,需要的计算资源也非常少,甚至在当时的德州仪器公司(TI)开发的很多玩具中,都有简单的语音合成功能。


第二个阶段是拼接合成法(Concatenation synthesis),把语音的每个单元存下来,拼接到一起。串联法的交接部分会有很多问题,这时候就需要进行很多的处理。从最早的直接对接、平滑(smoothing)到后来使用基于统计的参数合成的隐马尔科夫方法(HMM)进行处理。


选择用 HMM 是因为它在语音识别领域获得了非常不错的结果,因此在语音大领域内都流行了起来。


第三个阶段就是利用深度神经网络了,这是一次飞跃式的进步。谷歌的 WaveNet、Tacotron,百度的 ClariNet,都是基于深度神经网络的 TTS [BD4] 系统,在学术上都取得了一定的突破,但是工程化方面仍然没有一个实时的系统。

 

机器之心:能否介绍一下微软的深度神经网络 TTS?


微软的深度神经网络 TTS 系统由两部分组成,第一部分是将文本转换成包含语音信息(phonetic)和韵律信息(prosodic)的声学参数(acoustic features)。第二部分是将两部分信息转为声波(waveform)。


我们的系统最大的突破在于,这是第一个实时的神经网络 TTS,并且大家直接可以在 Azure 云上使用。


之前我们的很多与人类相比较的突破不同的是,之前的大部分突破是从研究角度,我们的算法可以达到人类的水平。例如我们在 ImageNet 图像识别数据集、Switchboard 语音识别数据集、SQuAD 问答数据集上的工作都是这一类型。而此次我们除了合成的声音 MOS 分(Mean Opinion Score)非常高,达到了与真人的声音不可区分的水平之外,最值得骄傲的是,我们构建了一个云计算服务系统,可以让大家来实时地使用 TTS。


实时深度神经网络 TTS 能够实现,有几个关键因素:第一是我们的云计算平台,提供了人工智能算力的支持;第二是我们的工程方面的进步,让这样一个序列到序列的过程可以实现实时;最后,我们的系统具有比较强的泛化能力,在实际应用场景中出现错误的概率比一般模型小很多。

 

机器之心:TTS 的使用文档中提到,用户可以提交训练样本定制自己的声音模型,想要完成定制,用户需要提交什么规模的何种数据?


「定制」是写在微软的基因里的一个概念。


我们第一次推出语音识别认知服务时,就同时推出了量身定制的语音识别系统,自然语言理解系统 LUIS 也是一个量身定制的语言理解系统,除此之外机器翻译、图像识别等等,都有量身定制的功能。


用户提供几百句声音样本数据,就能获得一个「入门」级的声音定制;提供五千句左右,可以进行「标准」的定制,如果能够提供一万句甚至更多,我们就能提供接近人声水平的 TTS 语音定制。

 

机器之心:TTS 和语音识别算法之间有哪些联系呢?


我们借鉴了很多语音识别领域的做法。


例如,以前李开复在卡内基梅隆大学的博士论文中,一个最大的贡献就是把不同人的声音合在一起,共同训练出一套通用的语音识别系统,而不需要为特定人训练自己的语音识别系统。


我们的语音合成系统也可以把不同人的声音性能整合起来,变成一个通用的、自然的语音合成系统。在这个情况下,要量身定制某一个人的语音就会比较容易。

 

机器之心:TTS 相比于机器翻译和语音识别模型,对算力的需求如何?


相对要求还是要高,这也是为什么其他厂商现在还没有提供实时神经网络语音合成系统的原因。


另一方面,TTS 的质量和对算力的要求是非线性的,想要达到类似人类的水平,需要的算力非常多,但是稍微降低要求,算力需求就小很多。

 

机器之心:TTS 有哪些应用场景?


最大的应用场景是智能音箱。其次是无障碍功能,Windows 可以读出屏幕中的内容。第三是公共汽车、火车、机场上的报站功能、GPS 导航、语音读物等等。


我们把「产生声音」的能力放在云上之后,人们可以用它进行各种不同的工作。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4天前
|
人工智能 数据处理 语音技术
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
LatentLM是由微软研究院和清华大学联合推出的多模态生成模型,能够统一处理离散和连续数据,具备高性能图像生成、多模态大型语言模型集成等功能,展现出卓越的多模态任务处理能力。
60 29
LatentLM:微软联合清华大学推出的多模态生成模型,能够统一处理和生成图像、文本、音频和语音合成
|
20天前
|
算法 安全 网络安全
网络安全服务
机密主要利用密码学技术加密文件实现,完整主要利用验证码/Hash技术,可用**主要灾备来保障。 网络环境下的身份鉴别,当然还是依托于密码学,一种可以使用口令技术,另一种则是依托物理形式的鉴别,如身份卡等。其实更为安全的是实施多因子的身份认证,不只使用一种方式。数字签名可以用来保证信息的完整性,比如RSA就可以用于数字签名: 若A向B发送信息m则先用自己的保密密钥(私钥)对m加密,然后用B的公钥第二次加密,发送个B后,B先用自己的私钥解密一次,再用A的公钥解密即可。 Kerberos使用对称密码算法来实现通过可信第三方密钥分发中心的认证服务,已经成为工业界的事实标准。
29 3
|
1月前
|
安全 Linux 网络安全
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息
nmap 是一款强大的开源网络扫描工具,能检测目标的开放端口、服务类型和操作系统等信息。本文分三部分介绍 nmap:基本原理、使用方法及技巧、实际应用及案例分析。通过学习 nmap,您可以更好地了解网络拓扑和安全状况,提升网络安全管理和渗透测试能力。
126 5
|
1月前
|
云安全 人工智能 安全
阿里云稳居公共云网络安全即服务市占率第一
日前,全球领先的IT市场研究和咨询公司IDC发布了《中国公有云网络安全即服务市场份额,2023:规模稳步增长,技术创新引领市场格局》报告。报告显示,阿里云以27.0%的市场份额蝉联榜首。
|
1月前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
223 3
|
1月前
|
运维 安全 5G
|
2月前
|
Docker 容器
docker swarm启动服务并连接到网络
【10月更文挑战第16天】
45 5
|
2月前
|
负载均衡 网络协议 关系型数据库
docker swarm 使用网络启动服务
【10月更文挑战第15天】
35 4
下一篇
DataWorks