开发者社区 > ModelScope模型即服务 > 语音 > 正文

语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)

【技术揭秘】可控时延语音识别文本后处理技术

论文:

        Conformer: Convolution-augmented Transformer for Speech Recognition

摘要:

       讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好,Transformer模型擅长捕获基于内容的全局交互,而CNN则有效地利用了局部特征。

 本文工作:我们通过研究如何结合卷积神经网络和Transformer到一个模型,以参数有效的方式对音频序列的局部和全局相依性进行建模,从而实现了两个方面的最佳。

名为卷积增强的transformer模型即conformer。总结: Transformer在提取长序列依赖的时候更有效,而卷积则是擅长提取局部特征。此论文的工作是将两者结合起来。

引言:

       介绍了基于Transformer模型(善于捕捉长序列依赖)和CNN(局部信息,边缘以及形状)的优势,以及它们的缺陷Transformer(提取细粒度的局部特征图案的能力较弱)CNN

(局部连接的限制是需要更多地层或者参数量才能去捕捉全局信息)介绍了卷积增强attention[1],[2],attention增强卷积[3],在这项工作中,我们研究如何在ASR模型中有机地结合自我注意。我们假设全局和局部的相互作用对于参数的有效性都是重要的。

模型:

image

 Conformer Encoder的总体架构如上,其中conformer block是由Feedforward module,Multi-head self attention Module, Convolution Module三个Module组成的,其中每个Module上都用了残差

**Convolution Module:**对于Convolution Module来说,使用了pre-norm残差,point-wise卷积和线性门单元(Gated Linear Unit)。如下图所示:

image

 Conformer Block:像一个三明治

image

 Feed forward module:

image

使用了Swish Activation以及Linear Layer

 实验

  • 数据集:LibriSPeech  970 hours以及额外的800M的词组合的语言模型

  • 80Fbank,25ms window, 10ms stride

  • SpecAugment[3][4] mask parameter(F=27) time mask ps=0.05

  • Decoder使用单层的LSTM,

  • 对于正则化,在每个残差单元使用dropout[6],image,使用Adm优化器,image,应用学习率策略 10k warmup step,peak learning rateimage d为conformer encoder中 模型维度

结果

image

image

 不同attention head对模型的影响

image

 不同卷积核大小的影响

image

参考文献

  1. B. Yang, L. Wang, D. Wong, L. S. Chao, and Z. Tu, “Convolutional self-attention networks,”arXiv preprint arXiv:1904.03107,2019.

  2. A. W. Yu, D. Dohan, M.-T. Luong, R. Zhao, K. Chen, M. Norouzi,and Q. V. Le, “Qanet:Combining local convolution with global self-attention for reading comprehension,”arXiv preprintarXiv:1804.09541, 2018.

  3. . Bello, B. Zoph, A. Vaswani, J. Shlens, and Q. V. Le, “Attention augmented convolutional networks,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3286–3295.

  4. D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D.Cubuk, and Q. V. Le, “Specaugment: A simple data augmentation method for automatic speech recognition,”arXiv preprintarXiv:1904.08779, 2019.

  5. D. S. Park, Y. Zhang, C.-C. Chiu, Y. Chen, B. Li, W. Chan, Q. V.Le, and Y. Wu, “Specaugment on large scale datasets,”arXivpreprint arXiv:1912.05533, 2019

  6. N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, andR. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,”Journal of Machine Learning Research,vol. 15, no. 56, pp. 1929–1958, 2014.

展开
收起
游客tqsxlcu6ie37g 2023-04-14 18:02:21 489 0
0 条回答
写回答
取消 提交回答

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关产品

  • 智能语音交互
  • 热门讨论

    热门文章

    相关电子书

    更多
    阿里云总监课第二期——IoT时代的语音交互智能 立即下载
    阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
    智能语音交互:阿里巴巴的研究与实践 立即下载