INTERSPEECH 2022论文解读|Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

简介: 近年来,随着端到端语音识别的流行,基于 Transformer 结构的语音识别系统逐渐成为了主流。然而,由于 Transformer 是一种自回归模型,需要逐个生成目标文字,计算复杂度随着目标文字数量而呈线性增加,限制了其在工业生产中的应用。

针对 Transoformer 模型自回归生成文字的低计算效率的缺陷,学术界提出了非自回归模型并行地输出目标文字(如图1所示)。根据生成目标文字时的迭代轮数,非自回归模型分为:多轮迭代式与单轮非自回归模型。

image.png

迭代式非自回归模型,主要为 Mask-Predict 模式[2],训练时,将输入文字随机掩码,通过周边信息预测当前文字。解码时,采用多轮迭代的方式逐步生成目标文字;计算复杂度与迭代轮数有关(通常小于目标文字个数),相比于自回归模型,计算复杂度有所下降,但是解码需要多轮迭代的特性,限制了其在工业生产中的应用。相比于多轮迭代模型,单轮非自回归模型有着更加广阔的应用前景,可以通过单次解码获取全部目标文字,计算复杂度与目标文字个数无关,进而极大的提高了解码效率。然而,由于条件独立假设,单轮非自回归模型识别效果与自回归模型有着巨大的差距,特别是在工业大数据上。

对于单轮非自回归模型,现有工作往往聚焦于如何更加准确的预测目标文字个数,如较为典型的 Mask CTC[3],采用 CTC 预测输出文字个数,尽管如此,考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。

另外一方面,我们通过对比自回归模型与单轮非自回归模型在工业大数据上的错误类型(如图2所示,AR 与 vanilla NAR),发现相比于自回归模型,非自回归模型在预测目标文字个数(插入错误+删除错误)方面差距较小,但是替换错误显著的增加,我们认为这是由于单轮非自回归模型中条件独立假设导致的语义信息丢失。与此同时,目前非自回归模型主要停留在学术验证阶段,还没有工业大数据上的相关实验与结论。

image.png

为了解决上述问题,我们设计了一种具有高识别率与计算效率的单轮非自回归模型Paraformer

针对第一个问题,我们采用一个预测器(Predictor)来预测文字个数并通过 Continuous integrate-and-fire (CIF) [4]机制来抽取文字对应的声学隐变量。

针对第二个问题,受启发于机器翻译领域中的 Glancing language model(GLM)[5],我们设计了一个基于 GLM 的 Sampler 模块来增强模型对上下文语义的建模。除此之外,我们还设计了一种生成负样本策略来引入 MWER[6] 区分性训练。

具体模型结构如图3所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 几部分组成。Encoder 与自回归模型保持一致,可以为 Self-attention、SAN-M 或者 Conformer 结构。Predictor 为2层 DNN 模型,预测目标文字个数以及抽取目标文字对应的声学向量。Sampler 为无可学习参数模块,依据输入的声学向量和目标向量,生产含有语义的特征向量。Decoder 结构与自回归模型类似,为双向建模(自回归为单向建模)。Loss function 部分,除了交叉熵(CE)与 MWER 区分性优化目标,还包括了 Predictor 优化目标 MAE。

image.png

其核心点主要有:

  • Predictor 模块:基于 CIF 的 Predictor 来预测语音中目标文字个数以及抽取目标文字对应的声学特征向量
  • Sampler:通过采样,将声学特征向量与目标文字向量变换成含有语义信息的特征向量,配合双向的 Decoder 来增强模型对于上下文的建模能力
  • 基于负样本采样的 MWER 训练准则

Predictor模块

非自回归模型的一个核心问题是如何预测模型中 Decoder 需要输出的文字数目,以及如何为 Decoder 提供输入特征向量。之前关于非自回归的工作主要是采用 CTC 来进行预测字符数目以及输入向量。Paraformer 里我们采用基于2层 DNN 的 Predictor 网络。输出为0~1之间的浮点数,输出值累加来预测目标文字个数,通过 CIF 机制抽取声学特征向量(图4为CIF过程示例)。训练过程中采用 MAE 来监督 Predictor 模块学习。

image.png我们在学术公开数据集 AISHELL-1 与 AISHELL-2,以及2万小时工业大数据上验证了模型效果。在 AISHELL-1 与 AISHELL-2 上分别取得了 5.2% 与 6.19% 的 CER,据我们所知目前公开发表论文中最优的非自回归模型

在2万小时工业大数据上,取得了与自回归模型相近的结果,并具有10倍以上加速比。更详细信息可以参考论文:https://arxiv.org/abs/2206.08317


image.png

Future workParaformer 模型在工业在数据上取得了与自回归模型类似的识别效果,计算效率提升 10 倍以上。在未来,我们将考虑利用海量文本预训练来进一步增强模型对上下文语义建模,提升模型识别效果。参考文献:

[1] Y. Higuchi, N. Chen, Y. Fujita, et al. A comparative study on non-autoregressive modelings for speech-to-text generation[C].2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 47-54.

[2] M. Ghazvininejad, O. Levy, Y. Liu, et al. Mask-predict: Parallel decoding of conditional masked language models[J]. arXiv preprint arXiv:1904.09324, 2019.[3] Y. Higuchi, S. Watanabe, N. Chen, T. Ogawa, and T. Kobayashi,“Mask ctc: Non-autoregressive end-to-end ASR with CTC and mask predict,” 2020.[4] L. Dong and B. Xu, “CIF: Continuous integrate-and-fire for end-to-end speech recognition,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6079–6083.[5] L. Qian, H. Zhou, Y. Bao, M. Wang, L. Qiu, W. Zhang, Y. Yu, and L. Li, “Glancing transformer for non-autoregressive neural machine translation,” arXiv preprint arXiv:2008.07905, 2020.

[6] R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.-C. Chiu, and A. Kannan, “Minimum word error rate training for attention-based sequence-to-sequence models,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4839–4843.



相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1月前
|
机器学习/深度学习 PyTorch 语音技术
语音识别模型
Whisper 是 OpenAI 推出的语音处理项目,基于深度学习,具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制,Whisper 在多种语言环境下表现出色,支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper,完成高质量的语音处理任务。官网:https://openai.com/research/whisper,GitHub:https://github.com/openai/whisper。
|
1月前
|
机器学习/深度学习 算法 语音技术
超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
【10月更文挑战第7天】随着人工智能技术的不断进步,语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手,还是智能家居设备,甚至是自动字幕生成系统,都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中,基于深度学习的方法尤其是递归神经网络(RNNs)及其变体如长短期记忆网络(LSTMs)和门控循环单元(GRUs)已经成为了研究和应用的热点。
54 2
|
4月前
|
机器学习/深度学习 算法 数据可视化
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
154 0
|
6月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
317 9
|
6月前
|
机器学习/深度学习 语音技术 Python
使用Python实现语音识别与处理模型
使用Python实现语音识别与处理模型
89 0
|
6月前
|
语音技术
要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改
【1月更文挑战第7天】【1月更文挑战第35篇】要将`modelscope-funasr`的输出从`Paraformer语音识别-中文-通用-16k-离线-large-长音频版-onnx`更改
159 3
|
6月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
131 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12324 116
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
22天前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
50 0

热门文章

最新文章

相关产品

  • 智能语音交互
  • 下一篇
    无影云桌面