INTERSPEECH 2017系列 | 语音识别技术之声学模型

简介: 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术(完整视频传送门,以下是本次分享的主要内容:

1.语音识别技术简介

1.1 什么是语音识别

       语音识别(Automatic Speech Recognition,ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地,是完全机器翻译,自然语言理解等的前提条件。语音识别的研究起源于上世纪的50年代,此后经过无数学者坚持不懈的努力,从最初的基于孤立词的小词汇量语音识别系统到目前的基于大词汇量的连续语音识别识别系统, 语音识别技术取得了显著的进展。特别是近年来随着大数据时代的到来,以及深度神经网络在语音识别中的应用,语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化,越来越多的语音识别智能软件和应用开始走入大家的日常生活,例如语音输入法,智能语音助手,车载语音交互系统等等。

1.2 语音识别系统框架

eeb97a903951b4eb9f5ae98324f6c8f47cd480cd
图1. 语音识别的数学公式表示
c58b30dc95cf4c683c03c064df0663b62f04d149
图2. 语音识别系统结构框图

          
        语音识别的目的是对给定的波形序列,可以得到相应的单词或者字符序列。因此语音识别可以被看作是一个信道解码或者模式分类问题。统计建模是目前主流的语音识别方法。基于统计建模框架,对于给定语音波形序列O,我们可以采用贝叶斯决策的最大后验概率( Maximum A Posteriori,MAP )估计得到最优的输出序列W*,公式表达如图1所示。其中条件概率P(O|W) 表示模型生成观察序列的概率,对应语音识别系统的声学模型(Acoustic Model,AM)。似然值P(W)则表示序列W出现的一个先验概率,称之为语言模型(Language Model,LM)。如图2是一个标注的语音识别系统的结构框图,其主要由前端处理,声学模型,语言模型,解码器四个模块组成。解码的过程主要是利用所训练的声学模型和语言模型,搜索得到最佳的输出序列。
       

1.3 声学模型

       82b9919477d7557ef342981b2df455543901233b
       声学模型的任务是计算P(O|W),即给模型产生语音波形的概率。声学模型是语音识别系统的重要组成部分,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。传统的语音识别系统普遍采用的是基于GMM-HMM的声学模型,其中GMM用于对语音声学特征的分布进行建模,HMM则用于对语音信号的时序性进行建模。2006年深度学习兴起以后,深度神经网络(Deep Neural Networks,DNN)被应用于语音声学模型。2009年,Hinton及其学生奖前馈全连接深度神经网络应用于语音识别声学建模[1],在TIMIT数据库上基于DNN-HMM的声学模型相比于传统的GMM-HMM声学模型可以获得显著的性能提升。DNN相比于GMM的优势在于:1)DNN对语音声学特征的后验概率进行建模不需要对特征的分布进行去分布假设;2)GMM要求对输入的特征进行去相关处理,而DNN可以采用各种形式的输入特征;3)GMM只能采用单帧语音作为输入,而DNN则可以通过拼接相邻帧的方式利用上下文的有效信息。2011年,DengLi等提出基于CD-DNN-HMM[2]的声学模型,在大词汇量连续语音识别任务上取得成功,相比于传统的GMM-HMM系统可以获得超过20%的相对性能提升。 基于DNN-HMM的语音声学模型开始取代GMM-HMM成为主流的声学模型。 此后大量的研究人员投入到基于深度神经网络的语音声学建模研究中,语音识别取得了突破性的进展。
c586d3900e4e74cef45f32c102a19606a493c2b9

2.INTERSPEECH 2017 论文介绍

        基于深度神经网络的语音识别声学建模在过去几年取得了很大的进展,不同的网络结构以及优化策略极大提升了声学模型的性能。以下则选择本次interspeech相关的两个声学模型的最新研究点进行介绍:1)Very deep Networks;2)End-to-end ASR systems。

2.1 Very Deep Networks for Acoustic Modeling

        45d345e8db5d2d073caf1e9f08b59802175d0613

        长短时记忆单元(Long Short Memory Networks,LSTM)是目前在声学模型中广泛应用的一种循环神经网络(Recurrent Neural Networks,RNN)结构。相比于普通的RNN,LSTM通过精心设计的门结构来控制信息的存储,输入和输出,同时可以一定程度上避免普通RNN的梯度消失问题,从而LSTM可以有效的对时序信号的长时相关性进行建模。作为声学模型的LSTM通常包含3-5个LSTM层,但是直接堆积更多的LSTM层构建更深的网络往往不会带来性能的提升,反而会由于degradation problem[3]使得模型的性能更差。

ce512167f34f6ed5d347e426f95eb985112c6aaf

        针对如何优化非常深的网络,最近有两种结构被提出来,称之为Highway Networks[4] 和ResNet[3]。这两种结构都通过在非线性变换的输出额外添加一个线性成分的方式,使得网络训练过程梯度可以更好的传递,避免由于网络太深导致的梯度消失问题。不同之处在于Highway Networks通过“门”来控制输出中的线性和非线性成分的比重,而ResNet则是更加直接的直接加上线性成分。实验表明两者都可以优化非常深层的网络的训练。Residual Networks在图像分类任务上获得了很大的成功。

        关于Highway Networks 和ResNet一开始都是在图像分类任务上进行验证的,而且采用的卷积神经网络(Convolutional Neural Networks,CNN)。但是由于语音信号时序建模非常重要,所以最流行的模型还是LSTM。但是通常声学模型使用的LSTM一般只包含3-5个LSTM层。所以进一步的一些研究探索借鉴Highway Networks 和ResNet,优化LSTM的结构,分别提出了Redisual-LSTM[5],Highway-LSTM[6]和Recurrent Highway Networks (RHN) [7]用于语音声学建模。下面我们结合结合论文介绍相应的网络结构以及实验结果。


Paper1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition

babbdefcd471d5b2f79b6febf7089322472a7061

       Residual-LSTM通过在普通的LSTM的输出层之间添加一个skip connection,如上图红色框框中的公式表达。这样可以将底层的输出直接添加到高层,如果低层的输出层和高层的输出层节点数目相同,可以进一步采用和ResNet相同单位映射。实验室在100小时AMI会议数据库进行的验证,实验结果如下:

f6fcf71849ec69081a388c0388ad6e150a63daac

Paper2. Highway-LSTM and Recurrent Highway Networks for Speech Recognition

7962b939e2e6eb36ee66d7d2ee360f354b383a55 

01c407c77e199cfeba7f75e66236c20827c7001b


      Highway-LSTM通过在相邻的LSTM层的cell之间建立一个线性连接,通过一个线性变换将底层cell中的表达添加到高层cell中。同时线性变换是受一个gate控制,gate的值是单前层的输入,单前层cell中表达,以及后一层cell中前一时刻的输出的一个函数。进一步的该论文中提出另一种深层的网络结构用于声学建模,称之为ecurrent Highway Networks (RHN)。RHN的隐层采用如上图的Recurrent Highway Layer构成。

e8ca81d938a2d2d77551265eb4c70acd002227b6

该论文是在一个12500小时的google voice search 任务上进行验证的。实验首先对比了普通的LSTM,Residual-LSTM,Highway-LSTM在该任务上的性能。从上图Exp1的实验结果可以看出在可比的配置下,Highway-LSTM(HW-LSTM)相比于Redidual-LSTM可以获得更好的性能。Exp2则对比了网络大小(20M,30M)情况下,HW-LSTM性能和隐层数目的关系,从结果上看通过Highway可以成功训练10层的网络,而且相比于5层网络可以获得一定的性能提升,但是进一步增加网络的隐层数目,也会出现性能的下降。
26c665b6335d9932a4c9fc43fd6b4b575c0c25bf

         Exp3则对比了不同配置Highway-Recurrent Highway Networks(HW-RHW)再改任务上的性能。功过使用RHL层可以成功训练非常深的网络,最终深层的HW-LSTM和HW-RHW可以获得差不多的性能,并且相比于基线LSTM都有一定的提升。
        864573e6e4809c0720ec3dfea03204f26ae74c31
        对比以上两篇论文的实验结果,我们发现在两个不同的任务集上,关于Highway-LSTM和Residual-LSTM的性能对比结论刚好是相反。这和实验的任务集相关,HW-LSTM通过gate来控制网络中非线性变换和线性变换的成分。通常对于更加困难的任务更多非线性变换的模型往往具有更强的建模能力。所以google的论文在1.25万小时的任务上HW-LSTM相比于Residual-LSTM具有优势。这点我们可以进一步通过观察HW-LSTM的各个层的transform gate的值来分析。从上图我们发现 transform gate的值随着训练的进行值越来越大,说明了网络更趋向于选择非线性变换成分。

2.2 End-to-End ASR System

       目前大多数语音识别系统到采用NN-HMM的混合系统。需要训练一个声学模型,语言模型,然后在结合词典进行解码。最新的一个研究热点是研究端到端的语音识别系统,希望可以去除HMM,直接从声学特征输入就可以得到识别的词序列。其中具有代表性的是CTC模型(Connectionist Temporal Classification)和基于Attention的Encoder-decoder模型。
       
5b1127b5e3a13eae8b62c99ee924280e9bf72e4b
1e8378097929a6ccee2b584916eda181008b7043
       Encoder-Decoder最早是应用于机器翻译领域[8]: 通过一个encoder对序列信息进行编码得到一个向量表达,然后作为decoder的输入。Decoder则是一个预测模型,利用历史输出和encoder得到的信息去预测输出。但是Encoder-Decoder框架在翻译很长的句子时候由于遗忘问题效果并不理想。一个改进的模型是引入attention机制。Attention机理是利用网络中的一些表达从Encoder中寻找和单前预测输出有关的一些输入,关系越密切attention向量的值越大。这样Decoder就可以获得一个额外的对当前预测输出有帮助的向量,从而可以避免长序列的遗忘问题。基于端到端的语音识别也可以看作一个sequence-to-sequence的翻译问题,输入的是声学特征,得到的是文本序列。所以基于Attention的Encoder-decoder框架很快被应用于语音识别。但是该框架存在一个问题,encoder需要接受整个序列以后,decoder才能产生输出,这对于识别的语音识别是不可接受的。基于这个问题,在interspeech2017上有研究提出了一种gaussian prediction based attention 来解决这个问题。具体的论文如下:

Paper3. Gaussian Prediction based Attention for Online End-to-End Speech Recognition

这篇论文的贡献主要有两点:
1)提出一种Gaussian prediction based attention解决通用的attention模型的延迟问题;
2)提出采用DCNN作为Encoder,相比于GRU可以获得更好的性能
2e883cbe100e4bcaf2d14f1e35c245de343b1eb4
Gaussian prediction based attention的公式表达如上图,其核心思想是假设attention的系数服从高斯分布,这在语音识别任务里是合理的。因为对于语音识别任务,和输出最相关的中心帧周边帧对预测输出都有贡献,但是这种贡献随着距离越远越小。从而Gaussian prediction based attention中不像传统的attention去计算每个时刻的attention系数,而是去预测一个Gaussian分布的均值和方差。进一步考虑到语音信号时序上单调性:下一时刻预测的atttention的中心帧应该比前一时刻更加靠后。基于此该论文采用公式9和10的相对预测方式。去预测一个正的偏移量而不是直接去预测高斯的均值。当前时刻高斯均值等于前一时刻的预测的均值加上一个正的偏移量得到。同时为保证实时性,采用如下的公式进行截断处理:
8619154803206eb7b7f7ab2800dde9db8ede8e61
实验验证是在3小时TIMIT数据库,结果如下:
859a78df2325e079112cef240da680e2d77da304

3 总结

     希望大家通过阅读这篇文章可以对语音识别系统的声学模型和最新的研究热点有一定的了解。

参考文献:

[1]   Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.
[2]  Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on audio, speech, and language processing, 2012, 20(1): 30-42.
[3]   He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[4]  Srivastava R K, Greff K, Schmidhuber J. Highway networks[J]. arXiv preprint arXiv:1505.00387, 2015.
[5]  Kim J, El-Khamy M, Lee J. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition[J]. arXiv preprint arXiv:1701.03360, 2017.
[6]  Zhang Y, Chen G, Yu D, et al. Highway long short-term memory rnns for distant speech recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 5755-5759.
[7]  Pundak G, Sainath T N. Highway-LSTM and Recurrent Highway Networks for Speech Recognition[J]. Proc. Interspeech 2017, 2017: 1303-1307.
[8]  Cho K, Van Merriënboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.
[9]  Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
[10]  Hou J, Zhang S, Dai L. Gaussian Prediction based Attention for Online End-to-End Speech Recognition[J]. Proc. Interspeech 2017, 2017: 3692-3696.


      

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12399 116
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2月前
|
机器学习/深度学习 PyTorch 语音技术
语音识别模型
Whisper 是 OpenAI 推出的语音处理项目,基于深度学习,具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制,Whisper 在多种语言环境下表现出色,支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper,完成高质量的语音处理任务。官网:https://openai.com/research/whisper,GitHub:https://github.com/openai/whisper。
|
2月前
|
机器学习/深度学习 算法 语音技术
超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
【10月更文挑战第7天】随着人工智能技术的不断进步,语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手,还是智能家居设备,甚至是自动字幕生成系统,都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中,基于深度学习的方法尤其是递归神经网络(RNNs)及其变体如长短期记忆网络(LSTMs)和门控循环单元(GRUs)已经成为了研究和应用的热点。
110 2
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
83 0
|
1月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
80 0
|
4月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
97 4
|
4月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
5月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
105 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
75 0
下一篇
DataWorks