针对 Transoformer 模型自回归生成文字的低计算效率的缺陷,学术界提出了非自回归模型来并行地输出目标文字(如图1所示)。根据生成目标文字时的迭代轮数,非自回归模型分为:多轮迭代式与单轮非自回归模型。
迭代式非自回归模型,主要为 Mask-Predict 模式[2],训练时,将输入文字随机掩码,通过周边信息预测当前文字。解码时,采用多轮迭代的方式逐步生成目标文字;计算复杂度与迭代轮数有关(通常小于目标文字个数),相比于自回归模型,计算复杂度有所下降,但是解码需要多轮迭代的特性,限制了其在工业生产中的应用。相比于多轮迭代模型,单轮非自回归模型有着更加广阔的应用前景,可以通过单次解码获取全部目标文字,计算复杂度与目标文字个数无关,进而极大的提高了解码效率。然而,由于条件独立假设,单轮非自回归模型识别效果与自回归模型有着巨大的差距,特别是在工业大数据上。
对于单轮非自回归模型,现有工作往往聚焦于如何更加准确的预测目标文字个数,如较为典型的 Mask CTC[3],采用 CTC 预测输出文字个数,尽管如此,考虑到现实应用中,语速、口音、静音以及噪声等因素的影响,如何准确的预测目标文字个数以及抽取目标文字对应的声学隐变量仍然是一个比较大的挑战。
另外一方面,我们通过对比自回归模型与单轮非自回归模型在工业大数据上的错误类型(如图2所示,AR 与 vanilla NAR),发现相比于自回归模型,非自回归模型在预测目标文字个数(插入错误+删除错误)方面差距较小,但是替换错误显著的增加,我们认为这是由于单轮非自回归模型中条件独立假设导致的语义信息丢失。与此同时,目前非自回归模型主要停留在学术验证阶段,还没有工业大数据上的相关实验与结论。
为了解决上述问题,我们设计了一种具有高识别率与计算效率的单轮非自回归模型Paraformer。
针对第一个问题,我们采用一个预测器(Predictor)来预测文字个数并通过 Continuous integrate-and-fire (CIF) [4]机制来抽取文字对应的声学隐变量。
针对第二个问题,受启发于机器翻译领域中的 Glancing language model(GLM)[5],我们设计了一个基于 GLM 的 Sampler 模块来增强模型对上下文语义的建模。除此之外,我们还设计了一种生成负样本策略来引入 MWER[6] 区分性训练。
具体模型结构如图3所示,由 Encoder、Predictor、Sampler、Decoder 与 Loss function 几部分组成。Encoder 与自回归模型保持一致,可以为 Self-attention、SAN-M 或者 Conformer 结构。Predictor 为2层 DNN 模型,预测目标文字个数以及抽取目标文字对应的声学向量。Sampler 为无可学习参数模块,依据输入的声学向量和目标向量,生产含有语义的特征向量。Decoder 结构与自回归模型类似,为双向建模(自回归为单向建模)。Loss function 部分,除了交叉熵(CE)与 MWER 区分性优化目标,还包括了 Predictor 优化目标 MAE。
其核心点主要有:
- Predictor 模块:基于 CIF 的 Predictor 来预测语音中目标文字个数以及抽取目标文字对应的声学特征向量
- Sampler:通过采样,将声学特征向量与目标文字向量变换成含有语义信息的特征向量,配合双向的 Decoder 来增强模型对于上下文的建模能力
- 基于负样本采样的 MWER 训练准则
Predictor模块
非自回归模型的一个核心问题是如何预测模型中 Decoder 需要输出的文字数目,以及如何为 Decoder 提供输入特征向量。之前关于非自回归的工作主要是采用 CTC 来进行预测字符数目以及输入向量。Paraformer 里我们采用基于2层 DNN 的 Predictor 网络。输出为0~1之间的浮点数,输出值累加来预测目标文字个数,通过 CIF 机制抽取声学特征向量(图4为CIF过程示例)。训练过程中采用 MAE 来监督 Predictor 模块学习。
我们在学术公开数据集 AISHELL-1 与 AISHELL-2,以及2万小时工业大数据上验证了模型效果。在 AISHELL-1 与 AISHELL-2 上分别取得了 5.2% 与 6.19% 的 CER,据我们所知是目前公开发表论文中最优的非自回归模型。
在2万小时工业大数据上,取得了与自回归模型相近的结果,并具有10倍以上加速比。更详细信息可以参考论文:https://arxiv.org/abs/2206.08317
▎Future workParaformer 模型在工业在数据上取得了与自回归模型类似的识别效果,计算效率提升 10 倍以上。在未来,我们将考虑利用海量文本预训练来进一步增强模型对上下文语义建模,提升模型识别效果。参考文献:
[1] Y. Higuchi, N. Chen, Y. Fujita, et al. A comparative study on non-autoregressive modelings for speech-to-text generation[C].2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 47-54.
[2] M. Ghazvininejad, O. Levy, Y. Liu, et al. Mask-predict: Parallel decoding of conditional masked language models[J]. arXiv preprint arXiv:1904.09324, 2019.[3] Y. Higuchi, S. Watanabe, N. Chen, T. Ogawa, and T. Kobayashi,“Mask ctc: Non-autoregressive end-to-end ASR with CTC and mask predict,” 2020.[4] L. Dong and B. Xu, “CIF: Continuous integrate-and-fire for end-to-end speech recognition,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6079–6083.[5] L. Qian, H. Zhou, Y. Bao, M. Wang, L. Qiu, W. Zhang, Y. Yu, and L. Li, “Glancing transformer for non-autoregressive neural machine translation,” arXiv preprint arXiv:2008.07905, 2020.
[6] R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.-C. Chiu, and A. Kannan, “Minimum word error rate training for attention-based sequence-to-sequence models,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4839–4843.