如何用一套语音识别系统实现多语种混合自由说?

简介: 语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。

现有的语音识别系统一般对单语种支持比较好,例如纯中文或纯英文语音识别系统。考虑到中英文混读的现象在日常交流中愈发频繁,比如经常会听到同学说:“借你的 ipad 给我看下 paper”。当前业内较为常见的处理方式是针对通用的中文语音识别来扩展兼顾中英文混读的识别系统。同时,如何高精度识别中英混读的语音成为热门的研究课题之一。2019年,达摩院语音实验室在基于 DFSMN-CTC-sMBR 的语音识别基础框架下,提出了 Bilingual-AM [INTERSPECH 2019] 的框架,有效提升了中英混读的识别效果。相关论文可参考:http://lxie.nwpu-aslp.org/papers/2019Interspeech_ZSL.pdf今年,我们基于最新的端到端语音识别框架,在中英文混读语音识别系统上进一步探索了中英自由说语音识别系统,通过借鉴混合专家系统 (Mixture of Experts, MOE) 的思想,在语音识别系统里面内嵌中、英文专家模块,通过这样的方式,让一套语音识别系统无需切换就能支持中文、英文和中英混读的语音识别。在通用中文、英文单语识别场景下 ,中英自由说系统识别效果可以和单独优化的中英文混读、英文识别系统相当;在中英文混读场景下,中英自由说系统识别效果优于中英文混读系统。多语种混合语音识别技术简介当前主流的的多语种混合语音识别方案主要分为两大类:语言相关 (language dependent) 和语言无关 (language independent)。

两个方案主要的区别在于:在语音识别系统中,语种信息是否作为先验信息来指导模型训练和解码。

• language dependent比较直接的做法是将语种信息映射成 one-hot 向量,然后拼接到语音特征作为模型的输入。通过这种方式,使得不同语种的语音特征具有一定的区分度,从而模型可以更好的识别不同语种的语音。还有一种常见的方法是在模型内部增加不同的 adapter (学习器),如下图 (b) 所示,在模型的每一层输出层添加不同语种对应的 adapter 模块,不同语种的 adapter 相互独立。通过这种方式,让每个 adapter 模块学习到相对应的语种信息。如下图 (a) 所示为 adapter 模块的网络结构。除此之外,考虑到不同语种之间训练数据不平衡的问题,通过控制训练 batch 中不同语种数据的比例,从而保证模型不会偏向于训练数据多的语种。

image.png

• language independent

Language dependent 多语种混合语音识别方法有两个比较大的缺点:1)训练和解码过程需要预先知道语种信息

2)当遇到多语种混杂场景时,无法唯一确定语种信息。

目前比较热门的 language independent 多语种混合语音识别方法主要是结合专家模型 (Mixture of Experts,MOE) 的思想。

MOE 模型的思想是将一个大模型拆分成多个小的专家模型,最后通过门控网络选择使用哪个专家,模型的实际输出为各个专家模型的输出与门控网络输出权重的加权。

如下图(2)所示,针对中英文混合语音识别,将 encoder 网络拆分成中文、英文专家网络,最后通过门控网络对中文、英文专家网络的输出进行加权。如下图(3)所示为门控网络。

image.png

如上图公示所示,输入语音特征 x 分别过中文、英文 encoder 网络,然后通过门控网络对中、英文 encoder 的每一帧输出计算相对应的权重,最后 encoder 网络的输出为中、英 encoder 网络的输出点乘上相对应的权重系数。

中英自由说语音识别系统介绍

针对中英文混说场景,我们借鉴了混合专家系统 (Mixture of Experts,MOE) 的思想。在端到端语音识别模型中,对中文和英文分别设计了一个子网络,每个子网络被称为专家,最后通过门控网络对每个专家网络的输出进行加权,具体模型结构如下图。同时为了减少模型参数量,中、英文子网络采用底层共享,高层独立的方式。

image.png

实验结果

我们在工业级大数据上验证了中英自由说模型的效果,在中文、英文、中英混杂测试集上的效果如下表所示:


中英自由说模型
中文模型
英文模型
中文测试集
9.73
9.79
~
英文测试集
13.07
28.3
12.41
中英混杂测试集
9.36
10.61
~
  • 中英自由说模型在纯中文测试集上,和中文模型效果相当 (9.73vs9.79);
  • 在中英混杂测试集上,相对于中文模型相对提升 11.78% (9.36vs10.61);
  • 在英文测试集上,相对于英文模型相对损失 5.32% (13.07vs12.41)。

注:中文模型使用中文、中英混杂、少量英文数据训练,英文模型只使用英文数据训练,中英自由说模型使用中文、英文、中英混杂数据训练。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
6月前
|
Web App开发 机器学习/深度学习 语音技术
在ModelScope-FunASR中,语音识别系统中的声音活动检测
在ModelScope-FunASR中,语音识别系统中的声音活动检测【4月更文挑战第3天】
274 1
|
6月前
|
机器学习/深度学习 自然语言处理 Linux
【专栏】Linux 中的机器学习:Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔
【4月更文挑战第28天】本文探讨了在Linux环境下,先进自动语音识别系统Whisper的运用与实现高效ASR。Whisper基于PyTorch,支持多语言识别,具有高准确性和实时性。文中介绍了安装配置Whisper的步骤,包括安装依赖、下载代码、配置环境变量及编译安装。通过数据准备、模型训练和识别,可实现语音识别功能。Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔。
271 1
|
3月前
|
存储 算法 Serverless
【matlab】matlab基于DTW和HMM方法数字语音识别系统(源码+音频文件+GUI界面)【独一无二】
【matlab】matlab基于DTW和HMM方法数字语音识别系统(源码+音频文件+GUI界面)【独一无二】
|
5月前
|
存储 Ubuntu 编译器
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
|
5月前
|
Ubuntu Unix Linux
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(一)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(一)
|
5月前
|
Linux 编译器 语音技术
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(二)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(二)
|
6月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
6月前
|
JSON 自然语言处理 Java
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
302 0
|
6月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
297 9
|
人工智能 Linux API
linux系统中利用QT实现语音识别项目的操作方法
linux系统中利用QT实现语音识别项目的操作方法
205 0

相关产品

  • 智能语音交互