「深度学习注意力机制 」TKDE 2022研究综述

简介: 「深度学习注意力机制 」TKDE 2022研究综述

image.png



【新智元导读】注意力机制(Attention Mechanism)是深度学习中常用的模块,作为一种资源分配方案,将有限的计算资源用来处理更重要的信息,是解决信息超载问题的主要手段。下面这篇是来自Erasmus University的Gianni Brauwers和Flavius Frasincar在TKDE上发表的《深度学习注意力机制》综述论文。


注意力是一种重要的机制,可用于跨许多不同领域和任务的各种深度学习模型。这项综述提供了一个关于深度学习注意力机制的重要概述。


各种注意力机制通过一个由注意力模型,统一符号,和一个全面的分类注意力机制组成的框架来进行解释。


在此基础上,本文综述了注意力模型评价的各种方法,并讨论了基于该框架的注意力模型结构表征方法。最后,对注意力模型领域的未来工作进行了展望。

论文链接:https://ieeexplore.ieee.org/document/9609539/


引言


模拟人类注意力的想法最早出现在计算机视觉领域,试图通过引入一个只关注图像特定区域而不是整个图像的模型来降低图像处理的计算复杂度,同时提高性能。


然而,我们今天所知道的注意力机制的真正起点通常是源于自然语言处理领域。Bahdanau等人的在机器翻译模型中实现了注意力,以解决循环神经网络结构中的某些问题。


在Bahdanau等人的强调了注意力的优点后,注意力技术得到了改进,并迅速流行于各种任务,如文本分类、图像字幕、情感分析,以及语音识别。


注意力已经成为深度学习中的一种流行技术,原因有几个。首先,整合了注意力机制的模型在上述所有任务和许多其他任务中都获得了最先进的结果。


大多数注意力机制可以与基本模型联合训练,如使用规则反向传播的循环神经网络或卷积神经网络。注意力向神经网络模型引入了一种特定类型的解释,这种解释通常被认为非常复杂。


Transformer模型的引入进一步证明了注意力的有效性,进一步提高了注意力机制的受欢迎程度。注意力最初是作为循环神经网络的扩展而引入的。然而,在中提出的Transformer模型是注意力研究的一个重大发展,因为它证明了注意力机制足以建立一个最先进的模型。


这意味着可以避免一些缺点,比如递归神经网络特别难以并行化的事实。就像引入最初的注意力机制一样,Transformer模型是为机器翻译创建的,但很快就被用于其他任务,如图像处理、视频处理和推荐系统。


本综述的目的是解释注意力的一般形式,并提供一个在深度学习注意力技术的全面概述。本综述与之前的研究主要区别在于,其他的综述一般都关注某个领域内的注意力模型。然而,这项综述提供了一个跨领域的注意力技术概述。


我们将以一种通用的方式讨论注意力技术,使它们能够被理解并应用于各种领域。我们发现以往研究中提出的分类方法缺乏恰当区分各种注意力机制所需的深度和结构。某些重要的注意力技巧在以前的综述中还没有得到适当的讨论,而其他提出的注意力机制似乎缺乏技术细节或直观的解释。


因此,在本文中,我们通过使用统一符号的单一框架,结合技术和直观的解释,提出了重要的注意力技术,并对注意力机制进行了全面的分类。


通用注意力模型


本节介绍一种注意力一般性与相应的符号。本节中介绍的框架将在本文的其余部分中使用。


为了实现一个通用的注意力模型,首先需要描述一个可以使用注意力的模型的一般特征。首先,我们将完整的模型称为任务模型。这个模型只接受一个输入,执行指定的任务,并产生所需的输出。


例如,任务模型可以是一种语言模型,它将一段文本作为输入,并将内容摘要、情绪分类或逐字翻译成另一种语言的文本作为输出。或者,任务模型可以获取图像,并为该图像生成标题或分割。任务模型由四个子模型组成: 特征模型、查询模型、注意力模型和输出模型。


注意力分类法


有许多不同类型的注意力机制和扩展,一个模型可以使用这些注意技术的不同组合。因此,我们提出了一种分类法,可以用来对不同类型的注意机制进行分类。


基于是否关注技术是设计来处理特定类型的特征向量(相关特性),特定类型的模型查询(查询相关)或者它仅仅是一个通用的机制,分成三大类。这些类别及其子类别的进一步解释将在下面的小节中提供。



特征相关注意力机制


基于特定的一组输入数据,特征模型提取特征向量,从而使注意力模型能够关注这些不同的向量。这些特征可能具有特定的结构,需要特殊的注意力机制来处理它们。可以对这些机制进行分类,以处理以下特征特征之一: 特征的多样性、特征的级别或特征的表示。


通用注意力机制


这个主要的类别包括了可以应用于任何类型的注意力模型的注意力机制。该组件的结构可以分解为以下几个子方面:注意力评分函数、注意力对齐和注意力维度。



查询相关的注意力机制


查询是任何注意力模型的重要组成部分,因为它们直接决定从特征向量中提取哪些信息。这些查询基于任务模型的期望输出,可以解释为文字问题。有些查询具有特定的特征,需要特定类型的机制来处理它们。


因此,这一类封装了处理特定类型查询特征的注意力机制。这一类中的机制处理以下两个查询特征之一:查询的类型或查询的多样性。



注意力模型评价


在本节中,我们介绍了各种类型的注意力模型的评估。


首先,我们可以使用分类法来评估注意力模型的结构。对于这样的分析,我们考虑注意力机制类别作为模型的正交维数。可以通过确定模型对每个类别使用的机制来分析模型的结构。


其次,我们讨论了评价注意力模型表现的各种技术。其中,注意力模型的性能可以通过外部或内部性能测量来评估。



结论


本研究综述了近年来关于深度学习中的注意力模型的研究进展。注意力机制已经成为深度学习模型的一个显著发展,因为它们已经表明可以显著提高模型性能,在几个研究领域的各种任务中产生了最先进的结果。


我们提出了一个全面的分类,可以用来分类和解释不同数量的注意力机制提出的文献。分类法的组织基于任务模型的结构,该任务模型由一个特征模型、一个注意力模型、一个查询模型和一个输出模型组成。此外,还使用基于查询、键和值的框架讨论了注意力机制。

最后,我们展示了如何使用外在和内在的测量方法来评估注意力模型的表现,以及如何使用分类方法来分析注意力模型的结构。


参考资料:

[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251.

[2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.


相关文章
|
3月前
|
机器学习/深度学习 数据可视化 网络架构
增强深度学习模型的可解释性和泛化能力的方法研究
【8月更文第15天】在深度学习领域,模型的准确率和预测能力是衡量模型好坏的重要指标。然而,随着模型复杂度的增加,它们往往变得越来越难以理解,这限制了模型在某些关键领域的应用,例如医疗诊断、金融风险评估等。本文将探讨如何通过几种方法来增强深度学习模型的可解释性,同时保持或提高模型的泛化能力。
350 2
|
25天前
|
机器学习/深度学习 调度 计算机视觉
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
本文探讨了多种学习率调度策略在神经网络训练中的应用,强调了选择合适学习率的重要性。文章介绍了阶梯式衰减、余弦退火、循环学习率等策略,并分析了它们在不同实验设置下的表现。研究表明,循环学习率和SGDR等策略在提高模型性能和加快训练速度方面表现出色,而REX调度则在不同预算条件下表现稳定。这些策略为深度学习实践者提供了实用的指导。
33 2
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自适应学习算法研究与应用
在深度学习领域,传统的静态模型在处理动态环境和非平稳数据时面临挑战。本文探讨了自适应学习算法在深度学习中的重要性及其应用。通过分析自适应学习算法在模型参数、损失函数和数据分布上的应用,展示了其在提升模型鲁棒性和泛化能力方面的潜力。具体讨论了几种代表性的自适应学习方法,并探索了它们在现实世界中的应用案例,从而展示了其在处理复杂问题和动态数据中的效果。
209 0
|
30天前
|
机器学习/深度学习 搜索推荐 算法
深度学习-点击率预估-研究论文2024-09-14速读
深度学习-点击率预估-研究论文2024-09-14速读
45 0
|
2月前
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习中的自注意力机制:理解与应用
在深度学习领域,自注意力机制(Self-Attention Mechanism)已成为推动模型性能飞跃的关键技术之一。本文将通过浅显易懂的方式,探讨自注意力机制的核心原理、实现方法及其在不同领域的应用实例,旨在为初学者和从业者提供一份简明扼要的指南。
|
3月前
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化深度学习研究与开发
【8月更文第27天】PyTorch Lightning 是一个用于简化 PyTorch 开发流程的轻量级封装库。它的目标是让研究人员和开发者能够更加专注于算法和模型的设计,而不是被训练循环和各种低级细节所困扰。通过使用 PyTorch Lightning,开发者可以更容易地进行实验、调试和复现结果,从而加速研究与开发的过程。
137 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自注意力机制:理论与实践
在深度学习的海洋中,自注意力机制犹如一艘破浪前行的帆船,引领着模型理解数据的新航向。本文将深入探讨自注意力机制的原理,解析其如何在各类任务中发挥作用,并分享一些实际应用案例,以期为读者提供对该技术更深层次的理解和应用启示。
97 3
|
3月前
|
机器学习/深度学习 存储 搜索推荐
Elasticsearch与深度学习框架的集成案例研究
Elasticsearch 是一个强大的搜索引擎和分析引擎,广泛应用于实时数据处理和全文搜索。深度学习框架如 TensorFlow 和 PyTorch 则被用来构建复杂的机器学习模型。本文将探讨如何将 Elasticsearch 与这些深度学习框架集成,以实现高级的数据分析和预测任务。
39 0
|
4月前
|
机器学习/深度学习 人工智能 安全
深度学习中的对抗性样本研究
在深度学习技术飞速发展的今天,对抗性样本作为一项重要的安全议题,引起了研究者们的广泛关注。对抗性样本指的是经过精心设计的、能够误导深度学习模型做出错误判断的输入数据。本文将深入探讨对抗性样本的生成机制、防御策略以及对未来深度学习安全性的影响,同时通过实验数据分析,揭示对抗性攻击对模型性能的具体影响,旨在为深度学习的安全性研究提供理论依据和实践指导。 【7月更文挑战第19天】
64 2
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深度学习中的自注意力机制:理解与应用
本文深入探讨了深度学习领域的一项关键技术——自注意力机制,旨在揭示其工作原理、优势以及在各类任务中的应用。通过分析自注意力机制如何使模型捕捉序列内部的动态依赖关系,本文阐明了其在提升模型性能方面的重要性。同时,文中还讨论了自注意力机制在自然语言处理、图像识别等领域的具体应用案例,并指出了当前研究的局限性和未来的发展方向。
104 2

热门文章

最新文章