INTERSPEECH 2017系列 | 语音识别技术之自适应技术

简介: 语音识别中的自适应,即针对某一个说话人或者某一domain来优化语音识别系统的识别性能,使得识别系统对他们的性能有一定的提升。本文章主要分享INTERSPEECH2017的自适应技术的最新进展。

编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术、系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出了强大的阵容前往现场。从10月25日开始,阿里iDST语音团队和云栖社区将共同打造一系列语音技术分享会,旨在为大家分享INTERSPEECH2017会议上语音技术各个方面的进展。第一期分享的主题是语音识别技术之自适应技术,以下是本次分享的主要内容。

1. 语音识别技术中的自适应技术简介
语音识别中的自适应,即针对某一个说话人或者某一domain来优化语音识别系统的识别性能,使得识别系统对他们的性能有一定的提升。语音识别的自适应技术的目的是为了减少训练集和测试集说话人或者domain之间差异性造成的语音识别性能下降的影响。这种差异性主要包括语音学上的差异还有生理上发音习惯上不同导致的差异性等等。自适应技术主要被应用于语音识别技术相关的产品,还有针对VIP客户的语音识别等。

图片名称

上述的差异性问题,它容易造成说话人或者domain无关的识别系统性能上不好,但是如果针对该说话人或者domain训练一个相关的识别系统,那么需要收集很多数据,这个成本是很高的。而语音识别中的自适应技术作为一种折中,它的数据量较少,并且性能上也能达到较好的效果。

语音识别中的自适应技术有很多,根据自适应的空间,可以分成两类:特征空间自适应和模型空间自适应。对于特征空间自适应来说,它试图将相关的特征通过特征转换成无关的特征,从而能够和无关的模型相匹配。而对于模型空间的自适应来说,它试图将无关的模型转换成相关的模型,从而能够和相关的特征相匹配。总而言之,这两类算法目的是为了让相关的特征与无关的模型相匹配。

2. INTERPSEECH 2017 paper reading

2.1 Paper 1

图片名称

第一篇文章的题目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它来自蒙特利尔大学。这篇文章的主要思想是将layer normalization的scale和shift两个参数由上下文无关的变成上下文相关的,从而根据上下文信息来获得动态的scale和shift。这是一种模型空间的自适应。它的主要创新的地方主要是,它不需要自适应阶段(自适应阶段就是使用目标 domain的数据进行自适应,从而能够学习到目标domain的知识),另外,它同样不需要提供包含说话人信息的相关特征,例如i-vector等等。

图片名称

DLN对应的公式如上图右边所示,首先,取前一层的minibatch ( $T$ )大小的隐层矢量或者输入矢量$h^{l-1}_t$进行summarization,从而获得$a^l$。然后,通过线性变换矩阵和偏置来动态地控制scale ( $\alpha^l_g$ )和shift ( $\beta^l_g$ )。

同时,在原来的CE训练的基础上,在目标函数上增加一个惩罚项(上图的右下角$L_{var}$),用于增加句子内的variance,从而summarization出来的信息会更加具有区分性。

图片名称

这篇paper主要是在81小时的WSJ以及212小时的TED数据集上进行实验,WSJ的训练集包含283个说话人,TED的训练集包含5076个说话人。

首先,在WSJ数据集上对比LN和DLN之间的性能,性能主要包括开发集和测试集的FER和WER(FER表示帧错误率,WER表示词错误率)。可以看出,除了测试集WER外,DLN均优于LN。文章分析,这是由于WSJ的说话人数目较少,导致句子间的差异性不明显,同时WSJ数据集是在安静环境下录制的,句子都比较平稳,DLN不能够起作用。

在TED数据集上的结果如第二个表格所示,发现在四个性能参数下,DLN均优于LN。文章对比WSJ和TED数据,TED数据集能够取得比较好的性能的原因是,TED数据集较WSJ speaker数目更多,句子数更多,variability更加明显。通过这篇文章,我们可以发现这种动态的LN与句子的variability相关。并且总体上看来,DLN是要优于LN。

2.2 Paper 2

图片名称

第二篇文章的题目是Large-Scale Domain Adaptation via Teacher-Student Learning,它来自微软。这篇文章的主要思想是通过teacher/student的结构来进行domain adaptation。这种方法不需要目标 domain的带标注的数据。但是,它需要和训练集相同的并行数据。它的创新点和价值主要在于,这种方法可以使用非常多的无标注数据,同时借用teacher network的输出来进一步提升student模型的性能。

图片名称

将teacher/student 简称为T/S。T/S的训练流图如上图右边所示。Figure 1 中的左侧为teacher network,右侧为student network,它们的输出后验概率分别设为$P_T$和$P_S$。

student network的训练过程:首先,将teacher network复制一份作为student network的初始化。然后,利用student domain data和teacher domain data通过对应的网络获得相应的后验概率$P_T$和$P_S$。最后,利用这两个后验概率计算error signal,进行back梯度反传更新student network。

图片名称

本paper的实验是在375小时的英文cortana数据上进行的。测试集根据不同的domain,有不同的测试集。

针对干净/带噪,在Cortana测试集上进行实验。首先,使用teacher network进行测试,发现在带噪语音上测试性能(18.8%)要远差于noise-free的语音(15.62%)。如果通过仿真的方式来训练teacher network,发现noisy的测试性能(17.34%)有一定的提升,这个等价于在student network上使用hard label来训练。第四行和第五行使用T/S 算法,在同样数据量上,soft label (16.66%)要优于hard label (17.34%)。如果将训练student network的数据增加到3400小时,性能会有进一步的提升(16.11%)。

图片名称

对于成年人/小孩来说,实验首先将375小时中的女性以及儿童数据去除,获得adult male 模型。实验发现,小孩的识别性能很差,分别是39.05和34.16。与干净/带噪相同,在使用T/S算法后,能够在性能上获得进一步的提升,并且数据扩大对于性能是有优势的。

2.3 Paper 3

图片名称

第三篇文章是来自香港科技大学和谷歌的文章。这篇文章主要的想法和创新点是将Factorized Hidden Layer (FHL)的自适应方法 应用于LSTM-RNN。

图片名称

对于FHL adaptation算法来说,它在说话人无关的网络权重$W$基础上加上一个说话人相关的网络权重,从而获得说话人相关的网络权重$W^s$。根据公式(7),我们可以看到,这个SD transformation是根据一组矩阵基$(B(1),B(2),...,B(i))$通过线性插值得到。同样,对神经网络的偏置$b$也可以进行相应的说话人相关变换。

但是,在实际实验中,由于矩阵基会带来大量的参数引入,这些矩阵基都被限制为rank-1,因此公式(7)可以进行一些变换,如上图右边所示。由于矩阵基为rank-1,那它可以被表示成一个列向量$\gamma(i)$和一个行向量$\psi(i)^T$相乘的形式。同时,插值矢量被表示成对角矩阵$D^s$的形式。这样便获得三个矩阵$\Gamma$、$D^s$和$\Psi^T$连乘的方式,方便模型训练。

图片名称

本文还介绍了speaker-dependent scaling。它将LSTM记忆单元中的激活值进行speaker-dependent scale。通过公式带入,发现,只要对每一个说话人学习$z^s$即可以进行说话人相关的scaling。但是这种算法存在一个问题,$z^s$的维度与网络的层宽相关,参数量大。因此,一种subspace scaling的方法被提出,它通过一个固定维度的low-dimensional vector $v^s$来控制$z^s$,$v^s$的维度远小于$z^s$,从而大大地减少了说话人相关的参数量。

图片名称

本paper是在78小时的数据集上进行的。上图中的表格表示使用文章中的算法的最终WER。表格中,none表示不使用任何自适应算法,SD bias表示FHL中不使用SD权重矩阵,仅使用SD 偏置。CMLLR是一种自适应算法。首先,文章中的算法(Best)相比于SD bias和CMLLR取得了最好的性能。然后,LSTM-RNN取得的识别性能的提升少于DNN,说明在LSTM-RNN上进行自适应难度更大。

3. 总结
通过调研阅读今年INTERSPEECH的自适应技术相关的论文,受益匪浅,主要是研究者们提出了很多有意思的想法。希望大家通过我的这篇文章能够对自适应技术有一定的了解。

4. 参考文献
[1] Kim T, Song I, Bengio Y. Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition[J]. 2017.
[2] Li J, Seltzer M L, Wang X, et al. Large-Scale Domain Adaptation via Teacher-Student Learning[J]. 2017.
[3] Samarakoon L, Mak B, Sim K C. Learning Factorized Transforms for Unsupervised Adaptation of LSTM-RNN Acoustic Models[C]// INTERSPEECH. 2017:744-748.

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12453 116
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
146 0
|
2月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
108 0
|
5月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
103 4
|
5月前
|
机器学习/深度学习 人工智能 语音技术
使用深度学习进行语音识别:技术探索与实践
【8月更文挑战第12天】深度学习技术的快速发展为语音识别领域带来了革命性的变化。通过不断优化模型架构和算法,我们可以期待更加准确、高效和智能的语音识别系统的出现。未来,随着技术的不断进步和应用场景的不断拓展,语音识别技术将在更多领域发挥重要作用,为人类带来更加便捷和智能的生活体验。
|
6月前
|
人工智能 API 语音技术
PHP对接百度语音识别技术
PHP对接百度语音识别技术
111 1
|
6月前
|
机器学习/深度学习 自然语言处理 大数据
语音识别和语音合成技术
语音识别和语音生成是人工智能的重要分支,旨在实现计算机对人类语音的理解和生成。随着深度学习技术的快速发展,语音识别和生成技术在近年来取得了显著进展,并在多个领域实现了广泛应用。本文将介绍语音识别和生成的基本原理、关键技术及其应用,并探讨其未来的发展趋势。
266 3
|
5月前
|
机器学习/深度学习 自然语言处理 算法
尖叫!FunAudioLLM 技术掀起狂潮,开启语音交互的惊天巨变之门!
【8月更文挑战第8天】随着科技的进步,语音交互已成为日常不可或缺的部分。FunAudioLLM凭借其先进的自然语言处理和深度学习技术,在语音理解和生成方面实现了突破。相较于传统技术,它提升了理解和响应速度。通过简单的Python代码示例,我们可以测试其对如天气查询等指令的快速准确反馈。FunAudioLLM不仅适用于日常交流,还在医疗、教育等领域展现出应用潜力。尽管存在多语言环境下的准确性挑战,其为语音交互领域带来的革新仍值得期待。随着技术的持续发展,FunAudioLLM将为更多领域带来便利和效率。
81 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
利用深度学习提升语音识别准确率的技术探讨
传统的语音识别技术在面对复杂的语音场景时常常表现出准确率不高的问题。本文探讨了如何利用深度学习技术,特别是深度神经网络,来提升语音识别的精度。通过分析深度学习在语音处理中的应用以及优势,我们展示了如何结合最新的研究成果和算法来解决现有技术的局限性,进一步推动语音识别技术的发展。 【7月更文挑战第3天】
344 0