Attention-lvcsr、Residual LSTM…你都掌握了吗?一文总结语音识别必备经典模型(3)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Attention-lvcsr、Residual LSTM…你都掌握了吗?一文总结语音识别必备经典模型

5、 Conformer

应用于ASR领域,Transformer和CNN的模型显示出较好的结果,且优于RNN。Transformer模型擅长捕获基于内容的全局交互,而CNN有效利用局部特征。这项工作通过研究如何以参数高效的方式将卷积神经网络和Transformer组合起来,来建模音频序列的局部和全局依存,从而充分利用两者优势。为此,本文提出了用于语音识别的卷积增强的Transformer,称为Conformer。Conformer主要的改进点在于Transformer在提取长序列依赖的时候更有效,而卷积则擅长提取局部特征,因此将卷积应用于Transformer的Encoder层,同时提升模型在长期序列和局部特征上的效果。

Conformer模型在输入的时候,首先通过一个卷积网络进行下采样,然后接上一系列的conformer模块,基本结构如下:

图7 Conformer编码器模型结构。Conformer由两个 macaron-like feed-forward 层组成,带有half-step残差连接,夹在多头自注意力和卷积模块中,之后是一个后置的分层模型

conformer模块包含以下几个部分:(1)Feedforward module;(2)Multi-head self attention Module;(3)Convolution Module。其中两个Feedforward输出都乘以了1/2。

Multi-head self attention Module。首先应用了一个来自于Transformer-XL的multi-headed self-attention (MHSA),具体来说是一个相对正弦位置编码(relative sinusoidal positional encoding),它能让self-attention模块在变长输入上有更好表现,所得到的编码器对语音长度的变化具有更强的鲁棒性。

图8  Multi-Headed self-attention模块

Convolution Module。对于Convolution Module来说,使用了pre-norm残差,point-wise卷积和门控线性单元(Gated Linear Unit,GLU)。如下图所示:

图9 卷积模块。卷积模块包含一个扩展系数为2的pointwise卷积,用GLU激活层投射通道的数量,然后是一个一维深度卷积。一维深度卷积之后是一个Batchnorm,然后是一个Swish激活层

Feedforward module。遵循pre-norm residual units,使用具有残差单元的层归一化,并在第一个线性层的输入前也应用层归一化。还应用Swish激活和dropout,这有助于正则化网络。图28示出了前馈(FFN)模块。

图10 Feed forward 模块。第一个线性层使用4的扩展因子,第二个线性层将其投影回模型维度。我们在前馈模块中使用swish激活和预范数剩余单元

该工作提出将Transformer block中的原始前馈层替换为两个half-step前馈层,一个在注意力层之前,一个在其后。在前馈(FFN)模块中使用half-step残差权重。第个二前馈模块之后紧接一个final layernorm层。因此,给定一个输入x_i和一个Conformer block i,块的输出y_i是:

其中,FFN指的是前馈模块,MHSA是指多头自注意力模块,CONV指的是如前所述的卷积模块。

当前 SOTA!平台收录 Conformer 共 3 个模型实现资源。


项目 SOTA!平台项目详情页
Conformer 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/conformer-l


前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。

网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
156 1
|
1月前
|
机器学习/深度学习 API 异构计算
7.1.3.2、使用飞桨实现基于LSTM的情感分析模型的网络定义
该文章详细介绍了如何使用飞桨框架实现基于LSTM的情感分析模型,包括网络定义、模型训练、评估和预测的完整流程,并提供了相应的代码实现。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
7.1.3、使用飞桨实现基于LSTM的情感分析模型
该文章介绍了如何使用飞桨(PaddlePaddle)实现基于长短时记忆网络(LSTM)的情感分析模型,包括数据处理、网络定义、模型训练、评估和预测的详细步骤。
|
3月前
|
机器学习/深度学习 存储 人工智能
算法金 | LSTM 原作者带队,一个强大的算法模型杀回来了
**摘要:** 本文介绍了LSTM(长短期记忆网络)的发展背景和重要性,以及其创始人Sepp Hochreiter新推出的xLSTM。LSTM是为解决传统RNN长期依赖问题而设计的,广泛应用于NLP和时间序列预测。文章详细阐述了LSTM的基本概念、核心原理、实现方法和实际应用案例,包括文本生成和时间序列预测。此外,还讨论了LSTM与Transformer的竞争格局。最后,鼓励读者深入学习和探索AI领域。
47 7
算法金 | LSTM 原作者带队,一个强大的算法模型杀回来了
|
2月前
|
机器学习/深度学习 算法 数据可视化
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)
Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)
133 0
|
4月前
|
机器学习/深度学习 算法
【MATLAB】基于VMD-SSA-LSTM的回归预测模型
【MATLAB】基于VMD-SSA-LSTM的回归预测模型
147 4
|
3月前
|
机器学习/深度学习 自然语言处理 PyTorch
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
86 0
|
4月前
|
机器学习/深度学习 算法
【MATLAB】基于EMD-PCA-LSTM的回归预测模型
【MATLAB】基于EMD-PCA-LSTM的回归预测模型
72 0
【MATLAB】基于EMD-PCA-LSTM的回归预测模型
|
4月前
|
机器学习/深度学习 数据可视化 TensorFlow
【视频】LSTM模型原理及其进行股票收盘价的时间序列预测讲解|附数据代码1
【视频】LSTM模型原理及其进行股票收盘价的时间序列预测讲解|附数据代码

相关产品

  • 智能语音交互
  • 相关实验场景

    更多