EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(3)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型

4、 highway LSTM


highwayLSTM是LSTM的变体,主要解决多层LSTM网络引起的梯度弥散问题。Highway翻译成中文就是”高速公路“,也就是说Highway LSTM提供了一条”高速公路“,让信息(细胞状态)可以在不同层之间畅通无阻的流通。通过在相邻层的记忆单元之间引入门控直接连接来扩展深度长短期记忆(DLSTM)循环神经网络。这些直接连接被称为highway连接,使不同层之间的信息流动不受阻碍,从而缓解了构建深度长短时记忆的梯度消失问题。进一步,作者介绍了延迟控制的双向LSTM(BLSTM),它可以在控制延迟的情况下利用整个历史信息。

图9 Highway长短期记忆RNNs


通过上图,我们可以看出Highway LSTM增加了一个控制门,叫carry gate(上图中的(d_t)^(l+1) ),用来控制低层的细胞状态有多少信息可以传递给高层的细胞状态(这是一种空间上的捷径)。如果carry gate为1,那么就像是一条highway,低层的细胞状态就可以畅通无阻的流向高层

LSTM RNN最初是为了解决RNN中的梯度递减问题而提出的。它在时间t的记忆单元状态c_t和t-1的同一单元状态c_t-1之间引入了线性依赖关系。引入非线性门以控制信息流。网络运行遵循以下公式:


深度LSTM RNNs是由多层LSTM单元堆叠而成。具体来说,下层LSTM单元的输出(y_t)^l作为输入(x_t)^l+1被送入上层。每个LSTM层在时间上是很深的,因为它可以在时间上展开,成为一个前馈神经网络,其中每层共享相同的权重,但深度LSTM RNNs仍然大大超过了单层LSTM RNNs的表现。在经典的DLSTM RNNs中,不同层的单元之间的互动必须通过输出-输入连接。

本文提出的Highway LSTM(HLSTM)RNN如图9所示。它在下层l的存储单元(c_t)^l和上层l+1的存储单元(c_t)^l+1之间有一个直接的门控连接(红色块)。carry gate控制多少信息可以从下层细胞直接流向上层细胞。在时间t的l+1层的门控函数为


使用carry gate,一个HLSTM RNN在第(l+1)层计算单元状态


因此,根据carry gate的输出,highway连接可以在普通LSTM层之间平滑地改变其行为,或者简单地从上一层传递其单元记忆。不同层的单元之间的highway连接使得从一层的单元到另一层的影响更加直接,并且在训练较深的LSTM RNNs时可以缓解梯度消失的问题。

上面描述的单向LSTM RNNs只能利用过去的历史。然而,在语音识别中,未来的上下文也传递信息,应该利用它来进一步增强声学模型。双向RNN通过用两个独立的隐藏层处理两个方向的数据来利用过去和未来的上下文,因此可以提高语音识别结果。将HLSTM RNNs从单向扩展到双向。后向层遵循前向层使用的相同方程,只是t-1被t+1取代,以利用未来的帧
,模型的运行时间为t=T到1。前向和后向层的输出被串联起来,形成下一层的输入。


前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。



相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图 REV1
Bert Pytorch 源码分析:五、模型架构简图 REV1
33 0
|
4月前
|
机器学习/深度学习 人工智能 开发工具
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
Hugging Face是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
|
4月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图
Bert Pytorch 源码分析:五、模型架构简图
27 0
|
6月前
lda模型和bert模型的文本主题情感分类实战
lda模型和bert模型的文本主题情感分类实战
111 0
|
5月前
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
6月前
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
|
5月前
|
人工智能 语音技术
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理,但更新了底模之后,V2.0以上版本支持了中英文混合推理(mix)模式。
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
|
2月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
32 9
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
|
4月前
|
机器学习/深度学习 自然语言处理 数据格式
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
55 0

相关产品

  • 智能语音交互