现有的语音识别系统一般对单语种支持比较好,例如纯中文或纯英文语音识别系统。考虑到中英文混读的现象在日常交流中愈发频繁,比如经常会听到同学说:“借你的 ipad 给我看下 paper”。当前业内较为常见的处理方式是针对通用的中文语音识别来扩展兼顾中英文混读的识别系统。同时,如何高精度识别中英混读的语音成为热门的研究课题之一。2019年,达摩院语音实验室在基于 DFSMN-CTC-sMBR 的语音识别基础框架下,提出了 Bilingual-AM [INTERSPECH 2019] 的框架,有效提升了中英混读的识别效果。相关论文可参考:http://lxie.nwpu-aslp.org/papers/2019Interspeech_ZSL.pdf今年,我们基于最新的端到端语音识别框架,在中英文混读语音识别系统上进一步探索了中英自由说语音识别系统,通过借鉴混合专家系统 (Mixture of Experts, MOE) 的思想,在语音识别系统里面内嵌中、英文专家模块,通过这样的方式,让一套语音识别系统无需切换就能支持中文、英文和中英混读的语音识别。在通用中文、英文单语识别场景下 ,中英自由说系统识别效果可以和单独优化的中英文混读、英文识别系统相当;在中英文混读场景下,中英自由说系统识别效果优于中英文混读系统。▎多语种混合语音识别技术简介当前主流的的多语种混合语音识别方案主要分为两大类:语言相关 (language dependent) 和语言无关 (language independent)。
两个方案主要的区别在于:在语音识别系统中,语种信息是否作为先验信息来指导模型训练和解码。
• language dependent比较直接的做法是将语种信息映射成 one-hot 向量,然后拼接到语音特征作为模型的输入。通过这种方式,使得不同语种的语音特征具有一定的区分度,从而模型可以更好的识别不同语种的语音。还有一种常见的方法是在模型内部增加不同的 adapter (学习器),如下图 (b) 所示,在模型的每一层输出层添加不同语种对应的 adapter 模块,不同语种的 adapter 相互独立。通过这种方式,让每个 adapter 模块学习到相对应的语种信息。如下图 (a) 所示为 adapter 模块的网络结构。除此之外,考虑到不同语种之间训练数据不平衡的问题,通过控制训练 batch 中不同语种数据的比例,从而保证模型不会偏向于训练数据多的语种。
• language independent
Language dependent 多语种混合语音识别方法有两个比较大的缺点:1)训练和解码过程需要预先知道语种信息
2)当遇到多语种混杂场景时,无法唯一确定语种信息。
目前比较热门的 language independent 多语种混合语音识别方法主要是结合专家模型 (Mixture of Experts,MOE) 的思想。
MOE 模型的思想是将一个大模型拆分成多个小的专家模型,最后通过门控网络选择使用哪个专家,模型的实际输出为各个专家模型的输出与门控网络输出权重的加权。
如下图(2)所示,针对中英文混合语音识别,将 encoder 网络拆分成中文、英文专家网络,最后通过门控网络对中文、英文专家网络的输出进行加权。如下图(3)所示为门控网络。
如上图公示所示,输入语音特征 x 分别过中文、英文 encoder 网络,然后通过门控网络对中、英文 encoder 的每一帧输出计算相对应的权重,最后 encoder 网络的输出为中、英 encoder 网络的输出点乘上相对应的权重系数。
▎中英自由说语音识别系统介绍
针对中英文混说场景,我们借鉴了混合专家系统 (Mixture of Experts,MOE) 的思想。在端到端语音识别模型中,对中文和英文分别设计了一个子网络,每个子网络被称为专家,最后通过门控网络对每个专家网络的输出进行加权,具体模型结构如下图。同时为了减少模型参数量,中、英文子网络采用底层共享,高层独立的方式。
▎实验结果
我们在工业级大数据上验证了中英自由说模型的效果,在中文、英文、中英混杂测试集上的效果如下表所示:
中英自由说模型 |
中文模型 |
英文模型 |
|
中文测试集 |
9.73 |
9.79 |
~ |
英文测试集 |
13.07 |
28.3 |
12.41 |
中英混杂测试集 |
9.36 |
10.61 |
~ |
- 中英自由说模型在纯中文测试集上,和中文模型效果相当 (9.73vs9.79);
- 在中英混杂测试集上,相对于中文模型相对提升 11.78% (9.36vs10.61);
- 在英文测试集上,相对于英文模型相对损失 5.32% (13.07vs12.41)。
注:中文模型使用中文、中英混杂、少量英文数据训练,英文模型只使用英文数据训练,中英自由说模型使用中文、英文、中英混杂数据训练。