语音识别(ASR)系列之四:基于Attention的模型

简介: 语音识别系列前三篇分别介绍了基本原理、混合模型、端到端模型中的CTC模型和Transducer模型。此篇是系列最后一篇,讲讲基于Attention机制(注意力机制)的端到端模型。

语音识别系列前三篇分别介绍了基本原理、混合模型、端到端模型中的CTC模型和Transducer模型。此篇是系列最后一篇,讲讲基于Attention机制(注意力机制)的端到端模型。


\

复习Attention

Attention机制毫不夸张地说是近几年机器学习中的大热门,热门的原因确实是因为它在各种场景中能提高模型的准确率。Attention本身的机制和结构不是本篇文章的重点,网上介绍的文章很多,我公众号之前也专门写了一篇文章介绍 ELMo、Attention、Transformer究竟在讲什么?


\

为方便理解本篇介绍的各种基于Attention的语音识别模型,对需要复习Attention的读者,我在此再系统列举一下当初提出Attention的基本论文和网上解释得最直观和系统的文章链接。最典型的Attention有两大类,一是Bahdanau等提出的用于机器翻译的Bahdanau Attention,二是Transformer模型中的Self-Attention。

Bahdanau Attention:  

原始论文:arxiv.org/pdf/1409.04…

可视化解释:jalammar.github.io/visualizing…

Transformer:\

原始论文:Attention Is All You Need:arxiv.org/abs/1706.03…

可视化解释:jalammar.github.io/illustrated…

\

回到主题,近5年基于Attention的语音识别模型相关论文众多,本篇主要列举有代表性的模型结构。很多模型只是在基本结构上做修改,或者训练时使用一些特定的技巧,不一一列举。为方便分类,把基于Bahdanau Attention的记为Attention#1,基于Transformer Self-Attention的记为Attention#2。

\

Attention#1:LAS

全称:Listen, Attend and Spell

论文:arxiv.org/pdf/1508.01… (2015年)

作者机构:Carnegie Mellon University, Google Brain

一句话总结模型结构:和Bahdanau Attention的seq-to-seq翻译模型结构一致

网络异常,图片无法展示
|

网络异常,图片无法展示
|
Listener:也就是encoder,接受语音数据,在传统seq-to-seq翻译模型上作修改,使用金字塔形的双向LSTM,可减少计算复杂度,加快训练收敛速度。

Attend and Spell: 也就是decoder,使用基于Attention的LSTM,把从encoder得到的信息解码为文本。

\

实验结果:\

网络异常,图片无法展示
|

其中,CLDNN-HMM是DNN/HMM混合模型,LM Rescoring是加上语言模型,Sampling是训练中以一定概率从前面预测结果采样作为后续预测输入。从中可以看出,各种情况下性能都差于混合模型。

\

Attention#1:对LAS的改进\

论文:arxiv.org/abs/1609.06… (2017年)

作者机构:Carnegie Mellon University等

一句话总结模型结构:联合使用CTC和Attention

网络异常,图片无法展示
|

模型利用CTC和attention的优点,在encoder输出上加入CTC。损失函数是CTC和attention损失函数的加权和:

网络异常,图片无法展示
|

实验结果:\

网络异常,图片无法展示
|

优于单独的CTC或者Attention。

\

Attention#2:标准Transformer

论文:http://150.162.46.34:8080/icassp2018/ICASSP18_USB/pdfs/0005884.pdf (2018年)

全称:Speech Transformer

作者机构:中科院自动化所,中科院大学

一句话总结模型结构:标准Transformer + 输入使用卷积网络(CNN)

网络异常,图片无法展示
|

实验结果:\

网络异常,图片无法展示
|

和其他两个seq-to-seq性能相当,但没有和混合模型以及LAS模型比较。

\

Attention#2:对Transformer的改进\

论文:arxiv.org/abs/1904.13… (2019年)

作者机构:Carnegie Mellon University等

一句话总结模型结构:对Transformer结构做局部改进,另加一些技巧

网络异常,图片无法展示
|

具体改进:

  1. 随机加入residual layer。
  2. encoder层数多于decoder层数(实验证明有效)。
  3. 加入正则化。

\

实验结果:

网络异常,图片无法展示
|

好于LSTM with attention(LAS),差于LSTM with LFMMI。

\

Attention#1&2:同时使用两种Attention

论文:arxiv.org/abs/1803.09… (2018年)

作者机构:Karlsruhe Institute of Technology

                 Carnegie Mellon University

一句话总结模型结构:把LAS中encoder替换为Self-Attention

网络异常,图片无法展示
|

(a):原LAS中的encoder(第一个比较的baseline)

(b):另一论文对LAS中encoder的改进(第二个比较的baseline)

(c):本论文的enocer结构,使用Transformer Self-Attention

模型中使用的一些技巧:

  1. 对每一Self-Attention改变形状进行降采样。
  2. 尝试不同方法提供序列位置信息。
  3. 对Attention加偏移量,从而限制Attention值。

\

实验结果:

网络异常,图片无法展示
|

pyramidal: 第一个baseline,LAS原始模型

LSTM/NiN: 第二个baseline

stacked/interleaved hybrid: 本论文两种不同位置信息算法,从结果看WER和原结构相当,只是计算度加快了。

\

结合之前介绍的CTC、Transducer模型,和本次基于Attention的模型, 已经囊括了目前端到端模型的全貌。它们之间的性能比较怎么样呢?\

\

端到端模型总体比较一

论文:arxiv.org/abs/1707.07…

作者机构:百度

网络异常,图片无法展示
|

网络异常,图片无法展示
|

实验在SWBD上测试,Transducer模型取得的结果最好。

\

端到端模型总体比较二\

论文:pdfs.semanticscholar.org/6cc6/8e8adf… (2019年)

作者机构:Google,Nvidia

网络异常,图片无法展示
|

网络异常,图片无法展示
|

此实验是在Google自己的一个测试集上做的。

  1. Attention based(LAS)在4个模型中最好。
  2. 没有加入Transformer比较。
  3. Baseline是CTC+语言模型,4个模型均未加额外的语言模型。

\

总结

本文列举了具有代表性的基于Attention机制的语音识别基本模型,以及在其上的改进,同时总体比较了各种端到端模型的性能。从实验结果来看,没有一种模型结构能在各种测试集上都优于其他模型,具体选用还得根据实际情况。\

到此,关于语音识别系列的文章告一段落。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
机器学习/深度学习 PyTorch 语音技术
语音识别模型
Whisper 是 OpenAI 推出的语音处理项目,基于深度学习,具备高度智能化和准确性的语音识别、翻译和生成能力。通过丰富的数据集和先进的注意力机制,Whisper 在多种语言环境下表现出色,支持语音识别、翻译、口语识别和语音活动检测等多种任务。用户可以通过 Python 代码或命令行轻松使用 Whisper,完成高质量的语音处理任务。官网:https://openai.com/research/whisper,GitHub:https://github.com/openai/whisper。
|
2月前
|
机器学习/深度学习 算法 语音技术
超越传统模型:探讨门控循环单元(GRU)在语音识别领域的最新进展与挑战
【10月更文挑战第7天】随着人工智能技术的不断进步,语音识别已经从一个相对小众的研究领域发展成为日常生活中的常见技术。无论是智能手机上的语音助手,还是智能家居设备,甚至是自动字幕生成系统,都离不开高质量的语音识别技术的支持。在众多用于语音识别的技术中,基于深度学习的方法尤其是递归神经网络(RNNs)及其变体如长短期记忆网络(LSTMs)和门控循环单元(GRUs)已经成为了研究和应用的热点。
120 2
|
5月前
|
机器学习/深度学习 算法 数据可视化
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
Python基于librosa和人工神经网络实现语音识别分类模型(ANN算法)项目实战
|
7月前
|
机器学习/深度学习 语音技术
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
Hotword模型在语音识别系统中定义为能够识别特定关键词或短语(也称为唤醒词)的模型
355 9
|
7月前
|
机器学习/深度学习 语音技术 Python
使用Python实现语音识别与处理模型
使用Python实现语音识别与处理模型
103 0
|
7月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
134 1
|
机器学习/深度学习 人工智能 数据可视化
Spectron: 谷歌的新模型将语音识别与语言模型结合进行端到端的训练
Spectron是谷歌Research和Verily AI开发的新的模型。与传统的语言模型不同,Spectron直接处理频谱图作为输入和输出。该模型消除归纳偏差,增强表征保真度,提高音频生成质量。
100 1
|
达摩院 自然语言处理 测试技术
直接开源!达摩院公布下一代工业级语音识别模型
直接开源!达摩院公布下一代工业级语音识别模型
771 0
|
机器学习/深度学习 自然语言处理 算法
谷歌的野心:通用语音识别大模型已经支持100+语言
谷歌的野心:通用语音识别大模型已经支持100+语言
250 0
|
机器学习/深度学习 API 语音技术
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型(3)
EeSen、FSMN、CLDNN、BERT、Transformer-XL…你都掌握了吗?一文总结语音识别必备经典模型
181 0