INTERSPEECH 2017系列 | 远场语音识别技术

简介: 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术,以下是本次分享的主要内容:

1. 远场语音识别技术简介

1.1. 什么是远场语音识别

远场语音识别是语音交互领域的重要技术,目的在于在远距离条件下(通常1m-10m),让机器能够识别人的语音。该技术在智能家居(智能音箱、智能电视等)、会议转录、车载导航等场景都有重要的应用。远场语音识别通常采用麦克风阵列的方式收集语音,由于真实环境中存在大量的背景噪声、多径反射和混响,甚至是人声干扰,导致拾取信号的质量下降,通常远场语音识别准确率与近场语音识别相比会有大幅下降。

1.2. 远场语音识别系统

远场语音识别系统通常包含前端信号处理与后端语音识别模块,前端部分旨在通过语音增强的手段,包括解混响(Dereverberation)、波束成形(Beamforming)等方法来将含有噪声和混响的语音尽可能的处理为“干净”的语音。而后端部分与一般的语音识别系统相同,目的在于将处理后“干净”的语音识别为文字。

1.2.1. 前端信号处理

远场语音经常包含比较明显的混响,所谓混响是指声音由声源发出后,在空气中传播,传播过程中在房间的界面上产生反射、散射等波动作用,由于声音的多次反射或散射而使声音延续的现象,这种现象称为混响。声源的直达声和近次反射声相继到达人耳,延迟时间小于50ms-80ms时,一般对语音识别的准确率没有明显影响;当延迟很大时,由于信号能量的衰减,一般也不会对语音识别造成影响;会造成影响的主要是其中的Late reverberation部分,这部分混响越明显,语音识别的准确率就会越低。Weighted prediction error (WPE)是一种常见的解混响方法。
另一种常见的前端信号处理技术是Beamforming,Beamforming通过对比不同声音的到达时间和麦克风间的距离来确定声音的来源(DOA)。一确认了目标声音的位置,我们就可以采用如空间滤波等音频处理技术来减少噪音干扰并增强信号质量。常用的Beamforming技术包括Delay and Sum (DS)、Minimum variance distortionless (MVDR)等。
近年来基于深度神经网络(NN)的语音增强技术也有了快速的发展,基于NN的语音增强通常是输入带噪的语音,期望通过NN强大的非线性建模能力得到“干净”的语音,比较具有代表性的技术包括Xu2015提出的Feature mapping以及Wang2016提出的Ideal ratio mask方法。

1.2.2. 后端语音识别

后端语音识别的系统框架如下图所示,其中最主要的部分是声学模型建模模块(AM)。2011年底, DNN技术被应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此以后基于DNN声学模型技术的研究变得异常火热。那么什么是DNN的?其实标准的DNN一点也不神秘,它和传统的人工神经(ANN)在结构上并没有本质的区别,只是ANN通常只包含一个隐层,而DNN则是通常包含至少3层以上的隐层,通过增加隐层数量来进行多层的非线性变换,大大的提升了模型的建模能力。

1


CNN被用在语音识别中已经不是一天两天了,在12、13年的时候就已经被引入到了语音识别中,那时候的卷积层和pooling层是交替出现的,并且卷积核的规模是比较大的,CNN的层数也不是特别的多,主要是用来对特征进行进一步的加工和处理,使其能更好的被用于DNN的分类。后来随着CNN技术在图像领域的发展,情况慢慢出现了变化,人们在图像领域的研究中发现多层卷积之后再接pooling层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的CNN模型。相应的方法被借鉴到了语音识别中,并根据语音识别的特点进行了进一步的优化。
LSTM模型是一种特殊的循环神经网络(RNN)。语音识别本来就是一个时序建模问题,所以非常适合用RNN来进行建模。但是简单的RNN受限于梯度爆炸和梯度消散问题,比较难以训练。而LSTM通过输入门、输出门和遗忘门可以更好的控制信息的流动和传递,具有长短时记忆能力,并在一定程度上缓解RNN的梯度消散和梯度爆炸问题。当然它也有不足之处,计算复杂度相比DNN大幅增加,并且由于递归连接的存在难以很好的并行。
BLSTM进一步提升了该类模型的建模能力,相比LSTM还考虑了反向时序信息的影响,也即“未来”对“现在”的影响,这在语音识别中也是非常重要的。这种能力的代价就是模型计算复杂度进一步加大,并且通常需要整句进行训练:GPU显存消耗增大->并行度降低->模型训练更慢,另外在实际应用中还存在实时性问题。为了克服这些问题,我们使用了Latency-control BLSTM模型,并完成了业界第一个上线的BLSTM-DNN hybrid语音识别声学模型。

2. INTERSPEECH 2017 远场语音识别论文介绍

下面选了两篇文章介绍一下本次INTERSPEECH论文,主要从声学模型改进和远场数据模拟两个角度看看远场语音识别的前沿进展。

2.1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition

本文提出了一种改进的LSTM模型结构:残差LSTM(Residual LSTM)网络。研究初衷来源于深度神经网络训练中常遇到的一个问题-----Degration problem,即随着网络深度的增加训练/开发集的错误率不降反增,这个问题并不是由over-fitting产生的,而是网络学习中存在问题。针对这一问题陆续有研究人员Highway network和Residual network等结构来试图减轻其影响。本文中研究人员对传统的LSTM结构进行了改进,提出了一种Residual LSTM,它将网络中前一层的输出直连到当前层,公式及改进后的结构图如下图所示,该网络相比于传统的LSTM以及之前有研究人员提出的Highway LSTM有以下三点优势:1.网络参数相比于传统LSTM/Highway LSTM更少(在论文中的网络配置下参数量减少10%);2.网络整体更容易训练,这得益于Residual结构的两个优点,一是避免了前向计算中非线性变换对数据的过度加工,二是误差反向传播时通过直连通路,抑制了梯度消散;3.最终的识别准确率相比统LSTM/Highway LSTM有了比较明显的提升,且当神经网络加深到10层时,成功避免了Degration problem的出现。

2


实验在远场开源数据集AMI上进行,该数据集模拟会议场景,数据是远场实录数据并配有对应的近讲数据,测试时使用存在重合语音干扰和不存在重合语音干扰两个数据集进行测试,结果如我们之前的分析。

3

2.2. Generation of large-scale simulated utterances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home

本文来自Google,论文把研究点放在了如何利用近场语音数据模拟远场语音数据上。由于真实环境中存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,通常远场语音识别准确率与近场语音识别相比会有大幅下降,因此我们需要大量的远场语音进行模型训练以帮助提高识别准确率。远场语音识别通常采用麦克风阵列的方式收集语音,受设备、场地等影响,录制真实远场数据比录制近场数据成本更高,大量的真实远场数据通常不易获得。研究人员利用近场数据模拟产生远场数据,用于模型训练。好的数据模拟方法可以使模拟产生远场数据与真实远场数据“更像”,从而更好的帮助到模型训练。本文模拟数据采用的公式和模拟场景如下图所示,房间冲激响应通过Image method模拟获得,噪声点的数量在0到3之间随机选择,模拟出的远场数据信噪比在0-30dB之间,目标说话人到麦克风阵列的距离为1-10m之间。

4


声学模型使用fCLP-LDNN模型。模型结构和最终的结果如下图所示,可以看到在有噪声和有说话人干扰的情况下,使用模拟远场数据训练得到的声学模型相比使用近场干净数据训练得到的模型,在鲁棒性方面优势明显,字错误率的相对下降可以达到40%以上。论文中的数据模拟方法被使用在了Google Home产品的模型训练中。

5

3.总结及技术展望

随着智能音箱、智能家居等产品和理念的推广普及,远场语音识别正变得越来越重要,同时随着技术的进步,远场语音识别也正变得越来越可用。未来一段时间内我们认为远场语音识别技术的研究重点将集中在以下几个方面:1.更好的前端处理技术,如给予深度神经网络的前端处理;2.更好的后端建模技术;3.前后端联合建模训练;4.远场数据模拟技术,这对于产品初期的模型迭代尤其重要;5.基于噪声环境、场景、SNR等的模型快速自适应。相信通过学术界和工业界的努力,远场语音识别技术会变得更加成熟、更加易用。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12408 116
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
100 0
|
1月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
90 0
|
4月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
97 4
|
4月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
5月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
109 1
|
5月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
243 3
|
4月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
77 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
300 0