自然语言处理中的注意力机制是干什么的?

简介:
本文来自AI新媒体量子位(QbitAI)

谈神经网络中注意力机制的论文和博客都不少,但很多人还是不知道从哪看起。于是,在国外问答网站Quora上就有了这个问题:如何在自然语言处理中引入注意力机制?

Quora自家负责NLP和ML的技术主管Nikhil Dandekar做出了一个简要的回答:

概括地说,在神经网络实现预测任务时,引入注意力机制能使训练重点集中在输入数据的相关部分,忽略无关部分。

注意力是指人的心理活动指向和集中于某种事物的能力。比如说,你将很长的一句话人工从一种语言翻译到另一种语言,在任何时候,你最关注的都是当时正在翻译的词或短语,与它在句子中的位置无关。在神经网络中引入注意力机制,就让它也学会了人类这种做法。

注意力机制最经常被用于序列转换(Seq-to-Seq)模型中。如果不引入注意力机制,模型只能以单个隐藏状态单元,如下图中的S,去捕获整个输入序列的本质信息。这种方法在实际应用中效果很差,而且输入序列越长,这个问题就越糟糕。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

图1:仅用单个S单元连接的序列转换模型

注意力机制在解码器(Decoder)运行的每个阶段中,通过回顾输入序列,来增强该模型效果。解码器的输出不仅取决于解码器最终的状态单元,还取决于所有输入状态的加权组合。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

图2:引入注意力机制的序列转换模型

注意力机制的引入增加了网络结构的复杂性,其作为标准训练模型时的一部分,通过反向传播进行学习。这在网络中添加模块就能实现,不需要定义函数等操作。

下图的例子,是将英语翻译成法语。在输出翻译的过程中,你可以看到该网络“注意”到输入序列的不同部分。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

图3:翻译网络示意图

由于英语和法语语序比较一致,从网络示意图可以看出,除了在把短语“European Economic Zone(欧洲经济区)”翻译成法语“zone économique européenne”时,网络线有部分交叉,在大多数时,解码器都是按照顺序来“注意”单词的。

文中配图来自Distill

推荐阅读:

Attention and Augmented Recurrent Neural Networks
http://distill.pub/2016/augmented-rnns/

Attention and Memory in Deep Learning and NLP
http://www.wildml.com/2016/01/attention-and-memory-in-deep-learning-and-nlp/

Peeking into the neural network architecture used for Google’s Neural Machine Translation
https://smerity.com/articles/2016/google_nmt_arch.html

【完】

本文作者:王小新
原文发布时间:2017-05-12
相关文章
|
机器学习/深度学习 自然语言处理
自然语言处理Transformer模型最详细讲解(图解版)
自然语言处理Transformer模型最详细讲解(图解版)
3610 1
自然语言处理Transformer模型最详细讲解(图解版)
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘深度学习中的注意力机制
【4月更文挑战第19天】 在深度学习领域,注意力机制(Attention Mechanism)已经成为推动模型性能突破的关键技术之一。不同于传统的序列处理模型,它能够动态地聚焦于输入数据的重要部分,赋予权重以实现更有效的信息提取。本文将探讨注意力机制的核心概念、不同变体以及在自然语言处理和图像识别中的应用实例。通过分析具体案例,我们将揭示注意力机制如何提升深度学习模型的处理能力,并讨论其面临的挑战与未来的发展方向。
|
28天前
|
机器学习/深度学习 自然语言处理 算法
什么是自然语言处理的语义理解?
【4月更文挑战第8天】
20 2
什么是自然语言处理的语义理解?
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
机器翻译语义层面
机器翻译语义层面
12 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
循环神经网络(RNN)在自然语言处理中的应用与挑战
循环神经网络(RNN)在自然语言处理中的应用与挑战
96 0
循环神经网络(RNN)在自然语言处理中的应用与挑战
|
11月前
|
机器学习/深度学习 人工智能 移动开发
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)
人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)
|
机器学习/深度学习 自然语言处理 搜索推荐
「深度学习注意力机制 」TKDE 2022研究综述
「深度学习注意力机制 」TKDE 2022研究综述
136 0
|
机器学习/深度学习 数据采集 人工智能
【自然语言处理(NLP)】基于LSTM实现谣言检测
【自然语言处理(NLP)】基于LSTM实现谣言检测,基于百度飞桨开发,参考于《机器学习实践》所作。
845 1
【自然语言处理(NLP)】基于LSTM实现谣言检测
|
机器学习/深度学习 自然语言处理
NLP学习笔记(五) 注意力机制
NLP学习笔记(五) 注意力机制
114 0
|
机器学习/深度学习 自然语言处理 并行计算
【NLP】Transformer理论解读
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,目前已经在目标检测、自然语言处理、时序预测等多个深度学习领域获得了应用,成为了新的研究热点。
176 0
【NLP】Transformer理论解读