如何用一套语音识别系统实现多语种混合自由说?

简介: 语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。

语音识别技术,也被称为自动语音识别 (Automatic Speech Recognition,ASR),其目标是将语音转成文字。

现有的语音识别系统一般对单语种支持比较好,例如纯中文或纯英文语音识别系统。考虑到中英文混读的现象在日常交流中愈发频繁,比如:“借你的 ipad 给我看下 paper”。当前业内较为常见的处理方式是针对通用的中文语音识别来扩展兼顾中英文混读的识别系统。同时,如何高精度识别中英混读的语音成为热门的研究课题之一。2019年,达摩院语音实验室在基于 DFSMN-CTC-sMBR 的语音识别基础框架下,提出了 Bilingual-AM [INTERSPECH 2019] 的框架,有效提升了中英混读的识别效果。相关论文可参考:http://lxie.nwpu-aslp.org/papers/2019Interspeech_ZSL.pdf今年,我们基于最新的端到端语音识别框架,在中英文混读语音识别系统上进一步探索了中英自由说语音识别系统,通过借鉴混合专家系统 (Mixture of Experts, MOE) 的思想,在语音识别系统里面内嵌中、英文专家模块,通过这样的方式,让一套语音识别系统无需切换就能支持中文、英文和中英混读的语音识别。在此基础上,我们在ASR模型中添加GST模块来提取语音的style embedding,从而使模型能自适应到口音、说话人等风格信息,进一步提升模型的效果。在通用中文、英文单语识别场景下 ,中英自由说系统识别效果可以和单独优化的中英文混读、英文识别系统相当;在中英文混读场景下,中英自由说系统识别效果优于中英文混读系统。

多语种混合语音识别技术简介

多语种混合语音识别系统的研究由来已久,在 GMM-HMM 和 DNN-HMM 为代表的混合语音识别框架下,两个主流的做法是:

1. 通用建模单元 [T. Schultz  1997;B. Li 2018]:将不同语种的建模单元映射成同一套建模单元体系

2. 多语种神经网络 [G. Heigold 2013;S. Tong 2017]:不同的语种共享一个隐层神经网络,各自有独立的一个输出分类层

这些方法通过参数共享,挖掘多语种的共同表征,对于低资源多语种识别可以起到比较好的提升作用。但是也存在一个问题:需要语种先验信息来指导模型的训练和解码。所以这类系统通常需要前置一个语种分类器。如何处理混杂语音的识别对于这类系统依然是一个挑战。

近些年,随着端到端语音识别系统的推广应用,构建高精度的不需要语种先验信息的多语种语音识别系统开始从研究走向实用。

以下我们对一些近期的中英混杂语音识别系统进行回顾:

论文 [Zhang S 2019] 中提出一种基于 Bilingual-DFSMN 的中英文语音识别系统。如下图1所示,Bilingual-DFSMN 采用单语种语料预先训练好基于 DFSMN-CTC-sMBR 的英文语音识别系统和中文语音识别系统初始化,然后添加一个混合建模单元(Character-subwords)的输出层,进一步采用中英文语料进行训练。单独优化的中文和英文子网络,可以有效利用单语种语料使得模型具有中英文区分性。Bilingual-DFSMN 可以在不需要语种信息的前提下,既保证纯中文和纯英文相对于单语系统的识别性能基本不降,也大幅度提升中英混杂场景下的识别性能。

图1. 基于Bilingual-DFSMN的中英文语音识别系统框图 [图片来源于Zhang S 2019]

论文 [Zhou X 2020] 中基于 Transformer 端到端语音识别框架,提出了 Multi-encoder-decoder Transformer 的中英文混杂语音识别系统。首先利用单独训练的中文和英文 encoder 组成 bi-encoder,然后 decoder 中的 cross-ettention 分别和 bi-encoder 中的中文和英文子网络计算得到 attention 输出,通过这种方式实现在端到端框架下不需要语种先验信息识别中英文混杂的语音。

图2. 基于Multi-encoder-decoder Transformer的中英混杂语音识别系统 [图片来源于Zhou X 2020]

论文 [Lu Y 2020] 提出另一种利用 bi-encoder 来构建中英文端到端识别的框架。不同于论文 [Zhou X 2020] 中需要两个 cross-attention 来访问 bi-encoder 的子网络,然后再相加得到输出。论文 [Lu Y 2020] 中利用了最新的混合专家系统 (Mixture of Experts,MOE) 的思想,通过门控网络来对 bi-encoder 的输出进行线性加权得到混合的输出,从而 decoder 可以保持和标准的 transformer decoder 一致的操作。

图3. 基于Bi-encoder和Mixture-of-experts的中英混杂语音识别系统 [图片来源于Lu Y 2020]

中英自由说语音识别系统

对于工业落地的中英自由说模型,不仅需要考虑识别效果,同时也需要考虑计算效率。基于此,我们借鉴了之前有关中英混杂语音识别的研究工作, 进一步构建了如下图4所示的中英自由说模型。模型包含三个主要组成部分:ASR-Encoder,Reference-Encoder 和 ASR-Decoder。其中 ASR-Encoder 采用 Bi-encoder-MOE 结构 [Lu Y 2020]。

考虑到实际使用的计算量问题,我们将 Bi-encoder 的大部分参数进行了共享,如图4(右) 所示。关于 Encoder 网络结构,可以采用 Transformer, Conformerd 等,我们沿用了之前所提出的 SAN-M[Gao Z 2020] 模型。

Reference-Encoder 的主要作用是对口音、说话人等个性化信息进行建模和嵌入到语音识别系统中。具体的,Reference-Encoder 通过接收原始的声学特征得到 Reference-embedding,然后通过 GST[Wang Y 2018] 模块转化得到个性化编码向量来增强 ASR-Decoder。

关于 ASR-Decoder,除了采用标准的语音识别相关的目标函数以外,我们会添加语种相关的目标函数 [Shinji Watanabe 2017] 来辅助模型更好的区分不同语种的语音。

图四. 中英自由说语音识别模型结构(图左)和ASR-Encoder结构(图右)

效果验证

我们在大概2万小时中文和1.9万小时英文的工业大数据上训练和验证了中英自由说模型的效果。

模型
中文测试集
英文测试集
中英混杂测试集
中文模型
8.76

22.01
英文模型

10.97

中英文混合模型
9.96
11.44
16.05
中英自由说模型
8.69
10.01
13.87

表一. 中英自由说模型和baseline模型实验对比


模型
中文测试集
英文测试集
中英混杂测试集

Mandarin-English Mixed Baseline

9.96
11.44
16.05

Language ID MTL [Shuai Zhang, 2021]

11.23
13.44 18.12

Bi-encoder-MOE [Lu Y 2020]

9.57
11.31 15.29

Bi-encoder bi-attention [Zhou X 2020]

9.23
11.01 15.12

UGA + H-ULSAE  (This work)

8.69
10.01
13.87

表二. 中英自由说模型和其他中英混合模型实验对比

  • 表一中,中文模型使用中文、中英混杂数据训练,英文模型只使用英文数据训练,中英文混合、中英自由说模型使用中文、英文、中英混杂数据训练。从实验结果上看,在中文、英文单语测试集上,中英自由说模型和中文、英文单语种模型效果相当;在中英混杂测试集上,中英自由说模型效果优于中文、中英文混合模型。
  • 表二中,“UGA  + H-ULSAE” 就是本文中所提到的中英自由说模型。在相同训练数据上,我们对比了中英自由说模型和 LID-MTL 模型 [Shuai Z 2021]、Bi-encode-MOE 模型 [Lu Y 2020]、Bi-encoder & Bi-decoder 模型 [Zhou X 2020] 的效果,从实验结果上看,中英自由说模型在中文、英文、中英混杂测试集上都有一定的优势。

,时长02:15

中英文自由说效果演示 )

Future work

目前,中英自由说技术已应用于达摩院产品听悟中,本月即将在阿里云智能语音交互产品中上线

未来,我们将更多的关注多语种语音识别技术在低资源场景下的应用。我们将探索迁移学习、无监督预训练等方法在低资源语音识别上的应用,利用海量的高资源语种标注数据和低资源语种无标注数据,进一步提升低资源场景下的语音识别准确率。


参考文献:

[1] T. Schultz and A. Waibel, “Fast bootstrapping of LVCSR systems with multilingual phoneme sets,” in Fifth European Conference on Speech Communication and Technology, 1997.[2] B. Li, Y. Zhang, T. Sainath, Y. Wu, and W. Chan, “Bytes are all you need: End-to-end multilingual speech recognition and synthesis with bytes,” arXiv preprint arXiv: 1811.09021, 2018.[3] G. Heigold, V. Vanhoucke, A. Senior, P. Nguyen, M. Ranzato, M. Devin, and J. Dean, “Multilingual acoustic models using distributed deep neural networks,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2013, pp. 8619–8623.[4] S. Tong, P. N. Garner, and H. Bourlard, “An investigation of deep neural networks for multilingual speech recognition training and adaptation,” in Annual Conference of the International Speech Communication Association. IEEE, 2017.[5] Shinji Watanabe, Takaaki Hori, and John R Hershey, “Language independent end-to-end architecture for joint language identification and speech recognition,” in 2017 IEEE Automatic Speech Recognition and Understand-ing Workshop (ASRU). IEEE, 2017, pp. 265–271.[6] Wang Y, Stanton D, Zhang Y, et al. Style tokens: Unsupervised style modeling, control and transfer inend-to-end speech synthesis[C]//International Conference on Machine Learning. PMLR, 2018: 5180-5189.[7] Zhang S, Liu Y, Lei M, et al. Towards Language-Universal Mandarin  English Speech Recognition[C]// INTERSPEECH. 2019: 2170-2174.[8] Zhou X, Yılmaz E, Long Y, et al. Multi-encoder-decoder transformer for code-switching speech recognition [J]. arXiv preprint arXiv:2006.10414, 2020.[9] Lu Y, Huang M, Li H, et al. Bi-encoder transformer network for mandarin-english code-switching speech recognition using mixture of experts[C]//Interspeech. 2020: 4766-4770.[10] GaoZ, Zhang S, Lei M, et al. San-m: Memory equipped self-attention for end-to-end speech recognition[J]. arXiv preprint arXiv:2006.01713, 2020.

[11] Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, and Ye Bai, “Rnn-transducer with language bias for end-to-end mandarin-english code-switching speech recognition,” in 2021 12th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2021, pp. 1–5.


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
7月前
|
Web App开发 机器学习/深度学习 语音技术
在ModelScope-FunASR中,语音识别系统中的声音活动检测
在ModelScope-FunASR中,语音识别系统中的声音活动检测【4月更文挑战第3天】
300 1
|
18天前
|
机器学习/深度学习 自然语言处理 Linux
Linux 中的机器学习:Whisper——自动语音识别系统
本文介绍了先进的自动语音识别系统 Whisper 在 Linux 环境中的应用。Whisper 基于深度学习和神经网络技术,支持多语言识别,具有高准确性和实时处理能力。文章详细讲解了在 Linux 中安装、配置和使用 Whisper 的步骤,以及其在语音助手、语音识别软件等领域的应用场景。
48 5
|
7月前
|
机器学习/深度学习 自然语言处理 Linux
【专栏】Linux 中的机器学习:Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔
【4月更文挑战第28天】本文探讨了在Linux环境下,先进自动语音识别系统Whisper的运用与实现高效ASR。Whisper基于PyTorch,支持多语言识别,具有高准确性和实时性。文中介绍了安装配置Whisper的步骤,包括安装依赖、下载代码、配置环境变量及编译安装。通过数据准备、模型训练和识别,可实现语音识别功能。Whisper适用于语音助手、翻译等领域,随着技术发展,其应用前景广阔。
288 1
|
4月前
|
存储 算法 Serverless
【matlab】matlab基于DTW和HMM方法数字语音识别系统(源码+音频文件+GUI界面)【独一无二】
【matlab】matlab基于DTW和HMM方法数字语音识别系统(源码+音频文件+GUI界面)【独一无二】
|
6月前
|
存储 Ubuntu 编译器
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(三)
|
6月前
|
Ubuntu Unix Linux
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(一)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(一)
|
6月前
|
Linux 编译器 语音技术
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(二)
合肥中科深谷嵌入式项目实战——基于ARM语音识别的智能家居系统(二)
|
7月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。
|
7月前
|
JSON 自然语言处理 Java
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
Android App开发语音处理之系统自带的语音引擎、文字转语音、语音识别的讲解及实战(超详细 附源码)
320 0
|
7月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
320 9

相关产品

  • 智能语音交互