INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。


INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。

本文介绍一种具有高识别率与计算效率的单轮非自回归模型 Paraformer。该论文已被 INTERSPEECH 2022 接收。


近年来,随着端到端语音识别的流行,基于 Transformer 结构的语音识别系统逐渐成为了主流。然而,由于 Transformer 是一种自回归模型,需要逐个生成目标文字,计算复杂度随着目标文字数量而呈线性增加,限制了其在工业生产中的应用。

针对 Transoformer 模型自回归生成文字的低计算效率的缺陷,学术界提出了非自回归模型并行地输出目标文字(如图1所示)。根据生成目标文字时的迭代轮数,非自回归模型分为:多轮迭代式与单轮非自回归模型。

图1 自回归模型与非自回归模型生成文字过程 [1]

迭代式非自回归模型,主要为 Mask-Predict 模式[2],训练时,将输入文字随机掩码,通过周边信息预测当前文字。解码时,采用多轮迭代的方式逐步生成目标文字;计算复杂度与迭代轮数有关(通常小于目标文字个数),相比于自回归模型,计算复杂度有所下降,但是解码需要多轮迭代的特性,限制了其在工业生产中的应用。相比于多轮迭代模型,单轮非自回归模型有着更加广阔的应用前景,可以通过单次解码获取全部目标文字,计算复杂度与目标文字个数无关,进而极大的提高了解码效率。然而,由于条件独立假设,单轮非自回归模型识别效果与自回归模型有着巨大的差距,特别是在工业大数据上。

对于单轮非自回归模型,现有工作往往聚焦于如何更加准确的预测目标文字个数,如较为典型的 Mask CTC[3],采用 CTC 预测输出文字个数,尽管如此,考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。

另外一方面,我们通过对比自回归模型与单轮非自回归模型在工业大数据上的错误类型(如图2所示,AR 与 vanilla NAR),发现相比于自回归模型,非自回归模型在预测目标文字个数(插入错误+删除错误)方面差距较小,但是替换错误显著的增加,我们认为这是由于单轮非自回归模型中条件独立假设导致的语义信息丢失。与此同时,目前非自回归模型主要停留在学术验证阶段,还没有工业大数据上的相关实验与结论。

图2 在2万小时工业数据上自回归与非自回归模型错误类型统计

为了解决上述问题,我们设计了一种具有高识别率与计算效率的单轮非自回归模型Paraformer

针对第一个问题,我们采用一个预测器(Predictor)来预测文字个数并通过 Continuous integrate-and-fire (CIF) [4]机制来抽取文字对应的声学隐变量。

针对第二个问题,受启发于机器翻译领域中的 Glancing language model(GLM)[5],我们设计了一个基于 GLM 的 Sampler 模块来增强模型对上下文语义的建模。除此之外,我们还设计了一种生成负样本策略来引入 MWER[6] 区分性训练。

具体模型结构如图3所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 几部分组成。Encoder 与自回归模型保持一致,可以为 Self-attention、SAN-M 或者 Conformer 结构。Predictor 为2层 DNN 模型,预测目标文字个数以及抽取目标文字对应的声学向量。Sampler 为无可学习参数模块,依据输入的声学向量和目标向量,生产含有语义的特征向量。Decoder 结构与自回归模型类似,为双向建模(自回归为单向建模)。Loss function 部分,除了交叉熵(CE)与 MWER 区分性优化目标,还包括了 Predictor 优化目标 MAE。


图3 Paraformer模型结构图

其核心点主要有:

  • Predictor 模块:基于 CIF 的 Predictor 来预测语音中目标文字个数以及抽取目标文字对应的声学特征向量
  • Sampler:通过采样,将声学特征向量与目标文字向量变换成含有语义信息的特征向量,配合双向的 Decoder 来增强模型对于上下文的建模能力
  • 基于负样本采样的 MWER 训练准则

Predictor模块

非自回归模型的一个核心问题是如何预测模型中 Decoder 需要输出的文字数目,以及如何为 Decoder 提供输入特征向量。之前关于非自回归的工作主要是采用 CTC 来进行预测字符数目以及输入向量。Paraformer 里我们采用基于2层 DNN 的 Predictor 网络。输出为0~1之间的浮点数,输出值累加来预测目标文字个数,通过 CIF 机制抽取声学特征向量(图4为CIF过程示例)。训练过程中采用 MAE 来监督 Predictor 模块学习。

图4 CIF过程示例

Sampler模块

非自回归模型的另一个核心问题是如何增强模型对上下文建模能力,现有的通用的单轮自回归模型 (vanilla-NAR) 为了高效计算效率,模型中 decoder 去除了显式的 Dependency 建模,从而在处理同音替换错误的能力会弱很多。从图2也可以看出 vanilla-NAR 相比于自回归(AR)的端到端语音识别系统在替换错误(substitution)上会明显增多。针对这个问题,Paraformer 借鉴来机器翻译里 GLM 工作,通过 Samper 模块来增强 Decoder 对于预测目标文字内在的 Dependency 的建模。Sampler 模块在解码时不工作,因此不会影响模型推理效率。数学模型如下:

我们在学术公开数据集 AISHELL-1 与 AISHELL-2,以及2万小时工业大数据上验证了模型效果。在 AISHELL-1 与 AISHELL-2 上分别取得了 5.2% 与 6.19% 的 CER,据我们所知目前公开发表论文中最优的非自回归模型

在2万小时工业大数据上,取得了与自回归模型相近的结果,并具有10倍以上加速比。更详细信息可以参考论文:https://arxiv.org/abs/2206.08317(点击文末“阅读原文”可直接跳转)。



Future workParaformer 模型在工业在数据上取得了与自回归模型类似的识别效果,计算效率提升 10 倍以上。在未来,我们将考虑利用海量文本预训练来进一步增强模型对上下文语义建模,提升模型识别效果。参考文献:

[1] Y. Higuchi, N. Chen, Y. Fujita, et al. A comparative study on non-autoregressive modelings for speech-to-text generation[C].2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 47-54.

[2] M. Ghazvininejad, O. Levy, Y. Liu, et al. Mask-predict: Parallel decoding of conditional masked language models[J]. arXiv preprint arXiv:1904.09324, 2019.[3] Y. Higuchi, S. Watanabe, N. Chen, T. Ogawa, and T. Kobayashi,“Mask ctc: Non-autoregressive end-to-end ASR with CTC and mask predict,” 2020.[4] L. Dong and B. Xu, “CIF: Continuous integrate-and-fire for end-to-end speech recognition,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6079–6083.[5] L. Qian, H. Zhou, Y. Bao, M. Wang, L. Qiu, W. Zhang, Y. Yu, and L. Li, “Glancing transformer for non-autoregressive neural machine translation,” arXiv preprint arXiv:2008.07905, 2020.

[6] R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.-C. Chiu, and A. Kannan, “Minimum word error rate training for attention-based sequence-to-sequence models,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4839–4843.


相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
89 9
|
1月前
|
机器学习/深度学习 语音技术 Python
使用Python实现语音识别与处理模型
使用Python实现语音识别与处理模型
34 0
|
1月前
|
语音技术
要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改
【1月更文挑战第7天】【1月更文挑战第35篇】要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改
106 3
|
1月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
59 1
|
7月前
|
机器学习/深度学习 人工智能 数据可视化
Spectron: 谷歌的新模型将语音识别与语言模型结合进行端到端的训练
Spectron是谷歌Research和Verily AI开发的新的模型。与传统的语言模型不同,Spectron直接处理频谱图作为输入和输出。该模型消除归纳偏差,增强表征保真度,提高音频生成质量。
54 1
|
7月前
|
语音技术
同一个语音为什么识别结果还不一致的,有大佬知道原因吗(Paraformer语音识别-中文-通用-16k-离线-large-热词版)
模型speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404,在线体验同一个语音识别结果不一致(https://modelscope.cn/models/damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404/summary)
235 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
51 4
|
4天前
|
自然语言处理 搜索推荐 数据挖掘
*语音识别技术将深刻影响未来的教育模式
【6月更文挑战第24天】*语音识别技术将深刻影响未来的教育模式
28 10
|
12天前
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
|
1月前
|
机器学习/深度学习 人工智能 算法
构建一个基于AI的语音识别系统:技术深度解析与实战指南
【5月更文挑战第28天】本文深入探讨了构建基于AI的语音识别系统,涵盖基本原理、关键技术及实战指南。关键步骤包括语音信号预处理、特征提取、声学模型、语言模型和解码器。深度学习在声学和语言模型中发挥关键作用,如RNN、LSTM和Transformer。实战部分涉及数据收集、预处理、模型训练、解码器实现及系统评估。通过本文,读者可了解构建语音识别系统的基本流程和技巧。

相关产品

  • 智能语音交互