EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(3)

简介: EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型

4、 highway LSTM


highwayLSTM是LSTM的变体,主要解决多层LSTM网络引起的梯度弥散问题。Highway翻译成中文就是”高速公路“,也就是说Highway LSTM提供了一条”高速公路“,让信息(细胞状态)可以在不同层之间畅通无阻的流通。通过在相邻层的记忆单元之间引入门控直接连接来扩展深度长短期记忆(DLSTM)循环神经网络。这些直接连接被称为highway连接,使不同层之间的信息流动不受阻碍,从而缓解了构建深度长短时记忆的梯度消失问题。进一步,作者介绍了延迟控制的双向LSTM(BLSTM),它可以在控制延迟的情况下利用整个历史信息。

图9 Highway长短期记忆RNNs


通过上图,我们可以看出Highway LSTM增加了一个控制门,叫carry gate(上图中的(d_t)^(l+1) ),用来控制低层的细胞状态有多少信息可以传递给高层的细胞状态(这是一种空间上的捷径)。如果carry gate为1,那么就像是一条highway,低层的细胞状态就可以畅通无阻的流向高层

LSTM RNN最初是为了解决RNN中的梯度递减问题而提出的。它在时间t的记忆单元状态c_t和t-1的同一单元状态c_t-1之间引入了线性依赖关系。引入非线性门以控制信息流。网络运行遵循以下公式:


深度LSTM RNNs是由多层LSTM单元堆叠而成。具体来说,下层LSTM单元的输出(y_t)^l作为输入(x_t)^l+1被送入上层。每个LSTM层在时间上是很深的,因为它可以在时间上展开,成为一个前馈神经网络,其中每层共享相同的权重,但深度LSTM RNNs仍然大大超过了单层LSTM RNNs的表现。在经典的DLSTM RNNs中,不同层的单元之间的互动必须通过输出-输入连接。

本文提出的Highway LSTM(HLSTM)RNN如图9所示。它在下层l的存储单元(c_t)^l和上层l+1的存储单元(c_t)^l+1之间有一个直接的门控连接(红色块)。carry gate控制多少信息可以从下层细胞直接流向上层细胞。在时间t的l+1层的门控函数为


使用carry gate,一个HLSTM RNN在第(l+1)层计算单元状态


因此,根据carry gate的输出,highway连接可以在普通LSTM层之间平滑地改变其行为,或者简单地从上一层传递其单元记忆。不同层的单元之间的highway连接使得从一层的单元到另一层的影响更加直接,并且在训练较深的LSTM RNNs时可以缓解梯度消失的问题。

上面描述的单向LSTM RNNs只能利用过去的历史。然而,在语音识别中,未来的上下文也传递信息,应该利用它来进一步增强声学模型。双向RNN通过用两个独立的隐藏层处理两个方向的数据来利用过去和未来的上下文,因此可以提高语音识别结果。将HLSTM RNNs从单向扩展到双向。后向层遵循前向层使用的相同方程,只是t-1被t+1取代,以利用未来的帧
,模型的运行时间为t=T到1。前向和后向层的输出被串联起来,形成下一层的输入。


前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。



相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
机器学习/深度学习 数据采集 人工智能
35_BERT与RoBERTa:优化编码器模型
2018年,Google发布的BERT(Bidirectional Encoder Representations from Transformers)模型彻底改变了自然语言处理领域的格局。作为第一个真正意义上的双向预训练语言模型,BERT通过创新的掩码语言模型(Masked Language Model, MLM)预训练策略,使模型能够同时从左右两侧的上下文信息中学习语言表示,从而在多项NLP任务上取得了突破性进展。
|
12月前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
1859 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
8月前
|
存储 机器学习/深度学习 自然语言处理
避坑指南:PAI-DLC分布式训练BERT模型的3大性能优化策略
本文基于电商搜索场景下的BERT-Large模型训练优化实践,针对数据供给、通信效率与计算资源利用率三大瓶颈,提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍,GPU利用率提升至89.3%,训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。
403 3
|
人工智能 编解码 语音技术
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。
2756 21
SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互
|
人工智能 物联网 测试技术
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
小红书开源的工业级自动语音识别模型,支持普通话、中文方言和英语,采用 Encoder-Adapter-LLM 和 AED 架构,实现 SOTA 性能。
3862 17
FireRedASR:精准识别普通话、方言和歌曲歌词!小红书开源工业级自动语音识别模型
|
机器学习/深度学习 数据采集 人工智能
昇腾AI行业案例(七):基于 Conformer 和 Transformer 模型的中文语音识别
欢迎学习《基于 Conformer 和 Transformer 模型的中文语音识别》实验。本案例旨在帮助你深入了解如何运用深度学习模型搭建一个高效精准的语音识别系统,将中文语音信号转换成文字,并利用开源数据集对模型效果加以验证。
514 12
|
机器学习/深度学习 人工智能 自然语言处理
昇腾AI行业案例(四):基于 Bert 模型实现文本分类
欢迎学习《昇腾行业应用案例》的“基于 Bert 模型实现文本分类”实验。在本实验中,您将学习如何使用利用 NLP (natural language processing) 领域的AI模型来构建一个端到端的文本系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
1025 0
|
自然语言处理 PyTorch 算法框架/工具
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
【10月更文挑战第1天】随着深度学习技术的进步,预训练模型已成为自然语言处理(NLP)领域的常见实践。这些模型通过大规模数据集训练获得通用语言表示,但需进一步微调以适应特定任务。本文通过简化流程和示例代码,介绍了如何选择预训练模型(如BERT),并利用Python库(如Transformers和PyTorch)进行微调。文章详细说明了数据准备、模型初始化、损失函数定义及训练循环等关键步骤,并提供了评估模型性能的方法。希望本文能帮助读者更好地理解和实现模型微调。
1371 2
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
|
机器学习/深度学习 PyTorch 语音技术
语音识别模型
Whisper 是 OpenAI 推出的语音处理项目,基于深度学习,具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制,Whisper 在多种语言环境下表现出色,支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper,完成高质量的语音处理任务。官网:https://openai.com/research/whisper,GitHub:https://github.com/openai/whisper。

热门文章

最新文章

相关产品

  • 智能语音交互