INTERSPEECH 2017系列 | 语音识别技术之声学模型

简介: 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术(完整视频传送门,以下是本次分享的主要内容:

1.语音识别技术简介

1.1 什么是语音识别

       语音识别(Automatic Speech Recognition,ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是完全机器翻译,自然语言理解等的前提条件。语音识别的研究起源于上世纪的50年代,此后经过无数学者坚持不懈的努力,从最初的基于孤立词的小词汇量语音识别系统到目前的基于大词汇量的连续语音识别识别系统, 语音识别技术取得了显著的进展。特别是近年来随着大数据时代的到来,以及深度神经网络在语音识别中的应用,语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。

1.2 语音识别系统框架

eeb97a903951b4eb9f5ae98324f6c8f47cd480cd
图1. 语音识别的数学公式表示
c58b30dc95cf4c683c03c064df0663b62f04d149
图2. 语音识别系统结构框图

          
        语音识别的目的是对给定的波形序列,可以得到相应的单词或者字符序列。因此语音识别可以被看作是一个信道解码或者模式分类问题。统计建模是目前主流的语音识别方法。基于统计建模框架,对于给定语音波形序列O,我们可以采用贝叶斯决策的最大后验概率( Maximum A Posteriori,MAP )估计得到最优的输出序列W*,公式表达如图1所示。其中条件概率P(O|W) 表示模型生成观察序列的概率,对应语音识别系统的声学模型(Acoustic Model,AM)。似然值P(W)则表示序列W出现的一个先验概率,称之为语言模型(Language Model,LM)。如图2是一个标注的语音识别系统的结构框图,其主要由前端处理,声学模型,语言模型,解码器四个模块组成。解码的过程主要是利用所训练的声学模型和语言模型,搜索得到最佳的输出序列。
       

1.3 声学模型

       82b9919477d7557ef342981b2df455543901233b
       声学模型的任务是计算P(O|W),即给模型产生语音波形的概率。声学模型是语音识别系统的重要组成部分,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。传统的语音识别系统普遍采用的是基于GMM-HMM的声学模型,其中GMM用于对语音声学特征的分布进行建模,HMM则用于对语音信号的时序性进行建模。2006年深度学习兴起以后,深度神经网络(Deep Neural Networks,DNN)被应用于语音声学模型。2009年,Hinton及其学生奖前馈全连接深度神经网络应用于语音识别声学建模[1],在TIMIT数据库上基于DNN-HMM的声学模型相比于传统的GMM-HMM声学模型可以获得显著的性能提升。DNN相比于GMM的优势在于:1)DNN对语音声学特征的后验概率进行建模不需要对特征的分布进行去分布假设;2)GMM要求对输入的特征进行去相关处理,而DNN可以采用各种形式的输入特征;3)GMM只能采用单帧语音作为输入,而DNN则可以通过拼接相邻帧的方式利用上下文的有效信息。2011年,DengLi等提出基于CD-DNN-HMM[2]的声学模型,在大词汇量连续语音识别任务上取得成功,相比于传统的GMM-HMM系统可以获得超过20%的相对性能提升。 基于DNN-HMM的语音声学模型开始取代GMM-HMM成为主流的声学模型。 此后大量的研究人员投入到基于深度神经网络的语音声学建模研究中,语音识别取得了突破性的进展。
c586d3900e4e74cef45f32c102a19606a493c2b9

2.INTERSPEECH 2017 论文介绍

        基于深度神经网络的语音识别声学建模在过去几年取得了很大的进展,不同的网络结构以及优化策略极大提升了声学模型的性能。以下则选择本次interspeech相关的两个声学模型的最新研究点进行介绍:1)Very deep Networks;2)End-to-end ASR systems。

2.1 Very Deep Networks for Acoustic Modeling

        45d345e8db5d2d073caf1e9f08b59802175d0613

        长短时记忆单元(Long Short Memory Networks,LSTM)是目前在声学模型中广泛应用的一种循环神经网络(Recurrent Neural Networks,RNN)结构。相比于普通的RNN,LSTM通过精心设计的门结构来控制信息的存储,输入和输出,同时可以一定程度上避免普通RNN的梯度消失问题,从而LSTM可以有效的对时序信号的长时相关性进行建模。作为声学模型的LSTM通常包含3-5个LSTM层,但是直接堆积更多的LSTM层构建更深的网络往往不会带来性能的提升,反而会由于degradation problem[3]使得模型的性能更差。

ce512167f34f6ed5d347e426f95eb985112c6aaf

        针对如何优化非常深的网络,最近有两种结构被提出来,称之为Highway Networks[4] 和ResNet[3]。这两种结构都通过在非线性变换的输出额外添加一个线性成分的方式,使得网络训练过程梯度可以更好的传递,避免由于网络太深导致的梯度消失问题。不同之处在于Highway Networks通过“门”来控制输出中的线性和非线性成分的比重,而ResNet则是更加直接的直接加上线性成分。实验表明两者都可以优化非常深层的网络的训练。Residual Networks在图像分类任务上获得了很大的成功。

        关于Highway Networks 和ResNet一开始都是在图像分类任务上进行验证的,而且采用的卷积神经网络(Convolutional Neural Networks,CNN)。但是由于语音信号时序建模非常重要,所以最流行的模型还是LSTM。但是通常声学模型使用的LSTM一般只包含3-5个LSTM层。所以进一步的一些研究探索借鉴Highway Networks 和ResNet,优化LSTM的结构,分别提出了Redisual-LSTM[5],Highway-LSTM[6]和Recurrent Highway Networks (RHN) [7]用于语音声学建模。下面我们结合结合论文介绍相应的网络结构以及实验结果。


Paper1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition

babbdefcd471d5b2f79b6febf7089322472a7061

       Residual-LSTM通过在普通的LSTM的输出层之间添加一个skip connection,如上图红色框框中的公式表达。这样可以将底层的输出直接添加到高层,如果低层的输出层和高层的输出层节点数目相同,可以进一步采用和ResNet相同单位映射。实验室在100小时AMI会议数据库进行的验证,实验结果如下:

f6fcf71849ec69081a388c0388ad6e150a63daac

Paper2. Highway-LSTM and Recurrent Highway Networks for Speech Recognition

7962b939e2e6eb36ee66d7d2ee360f354b383a55 

01c407c77e199cfeba7f75e66236c20827c7001b


      Highway-LSTM通过在相邻的LSTM层的cell之间建立一个线性连接,通过一个线性变换将底层cell中的表达添加到高层cell中。同时线性变换是受一个gate控制,gate的值是单前层的输入,单前层cell中表达,以及后一层cell中前一时刻的输出的一个函数。进一步的该论文中提出另一种深层的网络结构用于声学建模,称之为ecurrent Highway Networks (RHN)。RHN的隐层采用如上图的Recurrent Highway Layer构成。

e8ca81d938a2d2d77551265eb4c70acd002227b6

该论文是在一个12500小时的google voice search 任务上进行验证的。实验首先对比了普通的LSTM,Residual-LSTM,Highway-LSTM在该任务上的性能。从上图Exp1的实验结果可以看出在可比的配置下,Highway-LSTM(HW-LSTM)相比于Redidual-LSTM可以获得更好的性能。Exp2则对比了网络大小(20M,30M)情况下,HW-LSTM性能和隐层数目的关系,从结果上看通过Highway可以成功训练10层的网络,而且相比于5层网络可以获得一定的性能提升,但是进一步增加网络的隐层数目,也会出现性能的下降。
26c665b6335d9932a4c9fc43fd6b4b575c0c25bf

         Exp3则对比了不同配置Highway-Recurrent Highway Networks(HW-RHW)再改任务上的性能。功过使用RHL层可以成功训练非常深的网络,最终深层的HW-LSTM和HW-RHW可以获得差不多的性能,并且相比于基线LSTM都有一定的提升。
        864573e6e4809c0720ec3dfea03204f26ae74c31
        对比以上两篇论文的实验结果,我们发现在两个不同的任务集上,关于Highway-LSTM和Residual-LSTM的性能对比结论刚好是相反。这和实验的任务集相关,HW-LSTM通过gate来控制网络中非线性变换和线性变换的成分。通常对于更加困难的任务更多非线性变换的模型往往具有更强的建模能力。所以google的论文在1.25万小时的任务上HW-LSTM相比于Residual-LSTM具有优势。这点我们可以进一步通过观察HW-LSTM的各个层的transform gate的值来分析。从上图我们发现 transform gate的值随着训练的进行值越来越大,说明了网络更趋向于选择非线性变换成分。

2.2 End-to-End ASR System

       目前大多数语音识别系统到采用NN-HMM的混合系统。需要训练一个声学模型,语言模型,然后在结合词典进行解码。最新的一个研究热点是研究端到端的语音识别系统,希望可以去除HMM,直接从声学特征输入就可以得到识别的词序列。其中具有代表性的是CTC模型(Connectionist Temporal Classification)和基于Attention的Encoder-decoder模型。
       
5b1127b5e3a13eae8b62c99ee924280e9bf72e4b
1e8378097929a6ccee2b584916eda181008b7043
       Encoder-Decoder最早是应用于机器翻译领域[8]: 通过一个encoder对序列信息进行编码得到一个向量表达,然后作为decoder的输入。Decoder则是一个预测模型,利用历史输出和encoder得到的信息去预测输出。但是Encoder-Decoder框架在翻译很长的句子时候由于遗忘问题效果并不理想。一个改进的模型是引入attention机制。Attention机理是利用网络中的一些表达从Encoder中寻找和单前预测输出有关的一些输入,关系越密切attention向量的值越大。这样Decoder就可以获得一个额外的对当前预测输出有帮助的向量,从而可以避免长序列的遗忘问题。基于端到端的语音识别也可以看作一个sequence-to-sequence的翻译问题,输入的是声学特征,得到的是文本序列。所以基于Attention的Encoder-decoder框架很快被应用于语音识别。但是该框架存在一个问题,encoder需要接受整个序列以后,decoder才能产生输出,这对于识别的语音识别是不可接受的。基于这个问题,在interspeech2017上有研究提出了一种gaussian prediction based attention 来解决这个问题。具体的论文如下:

Paper3. Gaussian Prediction based Attention for Online End-to-End Speech Recognition

这篇论文的贡献主要有两点:
1)提出一种Gaussian prediction based attention解决通用的attention模型的延迟问题;
2)提出采用DCNN作为Encoder,相比于GRU可以获得更好的性能
2e883cbe100e4bcaf2d14f1e35c245de343b1eb4
Gaussian prediction based attention的公式表达如上图,其核心思想是假设attention的系数服从高斯分布,这在语音识别任务里是合理的。因为对于语音识别任务,和输出最相关的中心帧周边帧对预测输出都有贡献,但是这种贡献随着距离越远越小。从而Gaussian prediction based attention中不像传统的attention去计算每个时刻的attention系数,而是去预测一个Gaussian分布的均值和方差。进一步考虑到语音信号时序上单调性:下一时刻预测的atttention的中心帧应该比前一时刻更加靠后。基于此该论文采用公式9和10的相对预测方式。去预测一个正的偏移量而不是直接去预测高斯的均值。当前时刻高斯均值等于前一时刻的预测的均值加上一个正的偏移量得到。同时为保证实时性,采用如下的公式进行截断处理:
8619154803206eb7b7f7ab2800dde9db8ede8e61
实验验证是在3小时TIMIT数据库,结果如下:
859a78df2325e079112cef240da680e2d77da304

3 总结

     希望大家通过阅读这篇文章可以对语音识别系统的声学模型和最新的研究热点有一定的了解。

参考文献:

[1]   Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.
[2]  Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on audio, speech, and language processing, 2012, 20(1): 30-42.
[3]   He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[4]  Srivastava R K, Greff K, Schmidhuber J. Highway networks[J]. arXiv preprint arXiv:1505.00387, 2015.
[5]  Kim J, El-Khamy M, Lee J. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition[J]. arXiv preprint arXiv:1701.03360, 2017.
[6]  Zhang Y, Chen G, Yu D, et al. Highway long short-term memory rnns for distant speech recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 5755-5759.
[7]  Pundak G, Sainath T N. Highway-LSTM and Recurrent Highway Networks for Speech Recognition[J]. Proc. Interspeech 2017, 2017: 1303-1307.
[8]  Cho K, Van Merriënboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.
[9]  Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
[10]  Hou J, Zhang S, Dai L. Gaussian Prediction based Attention for Online End-to-End Speech Recognition[J]. Proc. Interspeech 2017, 2017: 3692-3696.


      

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
2月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
34 9
|
2月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
4月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
35 1
|
5月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
187 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
206 0
|
6月前
|
机器学习/深度学习 人工智能 数据可视化
Spectron: 谷歌的新模型将语音识别与语言模型结合进行端到端的训练
Spectron是谷歌Research和Verily AI开发的新的模型。与传统的语言模型不同,Spectron直接处理频谱图作为输入和输出。该模型消除归纳偏差,增强表征保真度,提高音频生成质量。
42 1
|
10月前
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
|
11月前
|
达摩院 自然语言处理 测试技术
直接开源!达摩院公布下一代工业级语音识别模型
直接开源!达摩院公布下一代工业级语音识别模型
518 0
|
11月前
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
12月前
|
机器学习/深度学习 自然语言处理 算法
谷歌的野心:通用语音识别大模型已经支持100+语言
谷歌的野心:通用语音识别大模型已经支持100+语言
161 0

热门文章

最新文章