INTERSPEECH 2017系列 | 远场语音识别技术

简介: 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。本期分享的主题是远场语音识别技术,以下是本次分享的主要内容:

1. 远场语音识别技术简介

1.1. 什么是远场语音识别

远场语音识别是语音交互领域的重要技术,目的在于在远距离条件下(通常1m-10m),让机器能够识别人的语音。该技术在智能家居(智能音箱、智能电视等)、会议转录、车载导航等场景都有重要的应用。远场语音识别通常采用麦克风阵列的方式收集语音,由于真实环境中存在大量的背景噪声、多径反射和混响,甚至是人声干扰,导致拾取信号的质量下降,通常远场语音识别准确率与近场语音识别相比会有大幅下降。

1.2. 远场语音识别系统

远场语音识别系统通常包含前端信号处理与后端语音识别模块,前端部分旨在通过语音增强的手段,包括解混响(Dereverberation)、波束成形(Beamforming)等方法来将含有噪声和混响的语音尽可能的处理为“干净”的语音。而后端部分与一般的语音识别系统相同,目的在于将处理后“干净”的语音识别为文字。

1.2.1. 前端信号处理

远场语音经常包含比较明显的混响,所谓混响是指声音由声源发出后,在空气中传播,传播过程中在房间的界面上产生反射、散射等波动作用,由于声音的多次反射或散射而使声音延续的现象,这种现象称为混响。声源的直达声和近次反射声相继到达人耳,延迟时间小于50ms-80ms时,一般对语音识别的准确率没有明显影响;当延迟很大时,由于信号能量的衰减,一般也不会对语音识别造成影响;会造成影响的主要是其中的Late reverberation部分,这部分混响越明显,语音识别的准确率就会越低。Weighted prediction error (WPE)是一种常见的解混响方法。
另一种常见的前端信号处理技术是Beamforming,Beamforming通过对比不同声音的到达时间和麦克风间的距离来确定声音的来源(DOA)。一确认了目标声音的位置,我们就可以采用如空间滤波等音频处理技术来减少噪音干扰并增强信号质量。常用的Beamforming技术包括Delay and Sum (DS)、Minimum variance distortionless (MVDR)等。
近年来基于深度神经网络(NN)的语音增强技术也有了快速的发展,基于NN的语音增强通常是输入带噪的语音,期望通过NN强大的非线性建模能力得到“干净”的语音,比较具有代表性的技术包括Xu2015提出的Feature mapping以及Wang2016提出的Ideal ratio mask方法。

1.2.2. 后端语音识别

后端语音识别的系统框架如下图所示,其中最主要的部分是声学模型建模模块(AM)。2011年底, DNN技术被应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此以后基于DNN声学模型技术的研究变得异常火热。那么什么是DNN的?其实标准的DNN一点也不神秘,它和传统的人工神经(ANN)在结构上并没有本质的区别,只是ANN通常只包含一个隐层,而DNN则是通常包含至少3层以上的隐层,通过增加隐层数量来进行多层的非线性变换,大大的提升了模型的建模能力。

1


CNN被用在语音识别中已经不是一天两天了,在12、13年的时候就已经被引入到了语音识别中,那时候的卷积层和pooling层是交替出现的,并且卷积核的规模是比较大的,CNN的层数也不是特别的多,主要是用来对特征进行进一步的加工和处理,使其能更好的被用于DNN的分类。后来随着CNN技术在图像领域的发展,情况慢慢出现了变化,人们在图像领域的研究中发现多层卷积之后再接pooling层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的CNN模型。相应的方法被借鉴到了语音识别中,并根据语音识别的特点进行了进一步的优化。
LSTM模型是一种特殊的循环神经网络(RNN)。语音识别本来就是一个时序建模问题,所以非常适合用RNN来进行建模。但是简单的RNN受限于梯度爆炸和梯度消散问题,比较难以训练。而LSTM通过输入门、输出门和遗忘门可以更好的控制信息的流动和传递,具有长短时记忆能力,并在一定程度上缓解RNN的梯度消散和梯度爆炸问题。当然它也有不足之处,计算复杂度相比DNN大幅增加,并且由于递归连接的存在难以很好的并行。
BLSTM进一步提升了该类模型的建模能力,相比LSTM还考虑了反向时序信息的影响,也即“未来”对“现在”的影响,这在语音识别中也是非常重要的。这种能力的代价就是模型计算复杂度进一步加大,并且通常需要整句进行训练:GPU显存消耗增大->并行度降低->模型训练更慢,另外在实际应用中还存在实时性问题。为了克服这些问题,我们使用了Latency-control BLSTM模型,并完成了业界第一个上线的BLSTM-DNN hybrid语音识别声学模型。

2. INTERSPEECH 2017 远场语音识别论文介绍

下面选了两篇文章介绍一下本次INTERSPEECH论文,主要从声学模型改进和远场数据模拟两个角度看看远场语音识别的前沿进展。

2.1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition

本文提出了一种改进的LSTM模型结构:残差LSTM(Residual LSTM)网络。研究初衷来源于深度神经网络训练中常遇到的一个问题-----Degration problem,即随着网络深度的增加训练/开发集的错误率不降反增,这个问题并不是由over-fitting产生的,而是网络学习中存在问题。针对这一问题陆续有研究人员Highway network和Residual network等结构来试图减轻其影响。本文中研究人员对传统的LSTM结构进行了改进,提出了一种Residual LSTM,它将网络中前一层的输出直连到当前层,公式及改进后的结构图如下图所示,该网络相比于传统的LSTM以及之前有研究人员提出的Highway LSTM有以下三点优势:1.网络参数相比于传统LSTM/Highway LSTM更少(在论文中的网络配置下参数量减少10%);2.网络整体更容易训练,这得益于Residual结构的两个优点,一是避免了前向计算中非线性变换对数据的过度加工,二是误差反向传播时通过直连通路,抑制了梯度消散;3.最终的识别准确率相比统LSTM/Highway LSTM有了比较明显的提升,且当神经网络加深到10层时,成功避免了Degration problem的出现。

2


实验在远场开源数据集AMI上进行,该数据集模拟会议场景,数据是远场实录数据并配有对应的近讲数据,测试时使用存在重合语音干扰和不存在重合语音干扰两个数据集进行测试,结果如我们之前的分析。

3

2.2. Generation of large-scale simulated utterances in virtual rooms to train deep-neural networks for far-field speech recognition in Google Home

本文来自Google,论文把研究点放在了如何利用近场语音数据模拟远场语音数据上。由于真实环境中存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,通常远场语音识别准确率与近场语音识别相比会有大幅下降,因此我们需要大量的远场语音进行模型训练以帮助提高识别准确率。远场语音识别通常采用麦克风阵列的方式收集语音,受设备、场地等影响,录制真实远场数据比录制近场数据成本更高,大量的真实远场数据通常不易获得。研究人员利用近场数据模拟产生远场数据,用于模型训练。好的数据模拟方法可以使模拟产生远场数据与真实远场数据“更像”,从而更好的帮助到模型训练。本文模拟数据采用的公式和模拟场景如下图所示,房间冲激响应通过Image method模拟获得,噪声点的数量在0到3之间随机选择,模拟出的远场数据信噪比在0-30dB之间,目标说话人到麦克风阵列的距离为1-10m之间。

4


声学模型使用fCLP-LDNN模型。模型结构和最终的结果如下图所示,可以看到在有噪声和有说话人干扰的情况下,使用模拟远场数据训练得到的声学模型相比使用近场干净数据训练得到的模型,在鲁棒性方面优势明显,字错误率的相对下降可以达到40%以上。论文中的数据模拟方法被使用在了Google Home产品的模型训练中。

5

3.总结及技术展望

随着智能音箱、智能家居等产品和理念的推广普及,远场语音识别正变得越来越重要,同时随着技术的进步,远场语音识别也正变得越来越可用。未来一段时间内我们认为远场语音识别技术的研究重点将集中在以下几个方面:1.更好的前端处理技术,如给予深度神经网络的前端处理;2.更好的后端建模技术;3.前后端联合建模训练;4.远场数据模拟技术,这对于产品初期的模型迭代尤其重要;5.基于噪声环境、场景、SNR等的模型快速自适应。相信通过学术界和工业界的努力,远场语音识别技术会变得更加成熟、更加易用。

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
语音识别技术的原理与应用
语音识别技术的原理与应用
|
4月前
|
机器学习/深度学习 自然语言处理 人机交互
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
148 0
语音识别技术的发展与未来趋势:深度学习、端到端建模与多模态融合
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
听懂未来:AI语音识别技术的进步与实战
听懂未来:AI语音识别技术的进步与实战
155 0
|
9月前
|
人工智能 编解码 API
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
C# 10分钟完成百度语音技术(语音识别与合成)——入门篇
|
10月前
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
11月前
|
机器学习/深度学习 达摩院 前端开发
INTERSPEECH 2022论文解读|针对多方会议场景下说话人相关语音识别的对比研究
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 ‍本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。
323 0
|
11月前
|
机器学习/深度学习 自然语言处理 大数据
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。
671 0
INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型
|
11月前
|
机器学习/深度学习 达摩院 算法
Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率
Contextual Transformer端到端语音识别文本定制技术,可显著提升热词召回及整体识别率
228 0
|
机器人 语音技术 开发工具
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
170 0
智能电话机器人,使用Microsoft语音识别技术(Speech sdk)
|
机器学习/深度学习 自然语言处理 搜索推荐
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术
智能语音交互基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。 目前已上线实时语音识别、一句话识别、录音文件识别、语音合成等多款产品,您可以在控制台页面进行试用,也可以通过API调用相关能力。
43720 4
阿里云智能语音交互产品测评:基于语音识别、语音合成、自然语言理解等技术

热门文章

最新文章