注意力机制(三)(不同注意力机制对比)

简介: 主要介绍了注意力机制的基本思想,以及注意力机制中一个常见的类型——自注意力机制。前面两篇文章为了帮助大家理解注意力机制的思想用了非常多的类比,以及联系生活实际。然而,不管类比和联系多么恰当,这些做法多多少少都会让事物本身的特性被类比、联系后的事物所掩盖。

回顾

前面两篇文章:

注意力机制(一)(基本思想)-CSDN博客

注意力机制(二)(自注意力机制)-CSDN博客

主要介绍了注意力机制的基本思想,以及注意力机制中一个常见的类型——自注意力机制。前面两篇文章为了帮助大家理解注意力机制的思想用了非常多的类比,以及联系生活实际

然而,不管类比和联系多么恰当,这些做法多多少少都会让事物本身的特性被类比、联系后的事物所掩盖。

所以本篇文章我们有两个任务:

1、还原注意力机制的本质:不使用任何的类比、比喻,仅仅来灌输注意力机制的本身思想

2、比对不同注意力机制类型:在注意力机制的本质下去比对不同注意力机制类型

注意力机制本质

注意力机制是父类

注意力机制是一个宏大的概念,也注意力机制是一个宏大的概念,也就说注意力机制指的是一群方法,而不是一个方法。并且,现在的模型都不会直接用原始注意力机制来做,而是用其变型来完成。


所以:


注意力机制是自注意力机制、交叉注意力机制、多头注意力机制的一个父类。并且可以认为里面的Q的来源是一个未实现的抽象类,需要在其子类(自注意力机制、交叉注意力机制等)中具体去实现

注意力机制的限制

对于上面这张图,大家应该都非常熟悉了:

1、Q与K进行查询,查询出K与Q的相似度

2、将相似度进行缩放处理

3、将Scale结果进行softMax处理的到0-1的概率值

4、将V和概率值进行MatMul后,得到的结果V‘就包含注意力的信息

注意力机制虽然没有规定QKV的来源和关系,但是它限制QKV的做法以及其所蕴含的含义。

因此,只要满足这四步操作的,我们都可以称为是一种注意力机制

自注意力机制

自注意力机制是注意力机制的一种特殊形式,注意力机制包括自注意力机制

在自注意力机制中,QKV是同源的,因此自注意力机制能够很好的探寻序列内部的信息

从上图中,对于Thinking的词向量X1,通过三次矩阵变化就得到了q、k、v

其实,所谓的Q K V矩阵、查询向量之类的字眼,其来源都是与矩阵的乘积,本质上都是的线性变换。那么为什么不直接使用而要对其进行线性变换呢?

当然是为了提升模型的拟合能力,矩阵都是可以训练的,起到一个缓冲的效果

总之,自注意力机制对QKV的来源(初始值)、关系存在一定的限制(这个限制让自注意力机制更易探寻模型内部的信息)(对单一序列分析有很好的效果),同时也通过矩阵使得模型可训练,起到缓冲作用

交叉注意力机制

交叉注意力是注意力机制的一种,它处理两个相关但不同的序列。这在多模态任务中特别有用,如图像和文本的联合处理(存在联系的多序列联合分析)

特点:V、K同源,Q来自另一个序列(如下图)

针对这个特点,我们不难理解为何交叉注意力机制多用于多模态任务:

1、V、K来自一段视频,Q来自一段音频。要求利用音频在视频中查找音频相关的视频内容

2、此时Q就代表查询项(爱好匹配),拿这个查询项到视频构造出来的序列中去查询。给视频

(K、V)中和音频(Q)相匹配的部分给予更高的关注度

3、于是在最后得到的视频序列V‘中,就重点考虑了我们要的相匹配的部分序列。此时无论是做相关视频内容的生成、查找都可以很方便的利用这个V’

XXX注意力机制

我们同样可以:

1、让QKV都不同源

2、让Q=1,KV同源

3、anyway~~~~

总之,我们任意给QKV的来源加以改变我们就可以得到一个全新的注意力机制。但是这样的一个来源组合,你必须要能够给出一个合理的解释同时保证它有一个很好的效果,否则就是没有意义的(现在对注意力来源修改的研究很多啦,想要利用这个发现一个全新的、优秀的注意力机制可不容易)

总结

1、注意力机制是一个方法群体的总称(父类)

2、自注意力、交叉注意力机制都是对注意力机制的继承,对QKV来源进行了限制

3、注意力机制本身对QKV的限制仅仅在操作方法上

4、自注意力机制主要用于单一序列的内部分析;交叉注意力机制用于多模态学习(多序列分析)

撰写文章不易,如果文章能帮助到大家,大家可以点点赞、收收藏呀~

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
视觉 注意力机制——通道注意力、空间注意力、自注意力
本文介绍注意力机制的概念和基本原理,并站在计算机视觉CV角度,进一步介绍通道注意力、空间注意力、混合注意力、自注意力等。
12993 58
|
机器学习/深度学习 自然语言处理
自然语言处理Transformer模型最详细讲解(图解版)
自然语言处理Transformer模型最详细讲解(图解版)
11304 1
自然语言处理Transformer模型最详细讲解(图解版)
|
Linux Shell 网络安全
|
7月前
|
存储 人工智能 自然语言处理
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
本文深入探讨了混合专家(MoE)架构在大型语言模型中的应用与技术原理。MoE通过稀疏激活机制,在保持模型高效性的同时实现参数规模的大幅扩展,已成为LLM发展的关键趋势。文章分析了MoE的核心组件,包括专家网络与路由机制,并对比了密集与稀疏MoE的特点。同时,详细介绍了Mixtral、Grok、DBRX和DeepSeek等代表性模型的技术特点及创新。MoE不仅解决了传统模型扩展成本高昂的问题,还展现出专业化与适应性强的优势,未来有望推动AI工具更广泛的应用。
3768 4
为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析
|
11月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
12356 46
|
机器学习/深度学习 自然语言处理 算法
注意力机制(四)(多头注意力机制)
在上一篇注意力机制(三)(不同注意力机制对比)-CSDN博客,重点讲了针对QKV来源不同制造的注意力机制的一些变体,包括交叉注意力、自注意力等。这里再对注意力机制理解中的核心要点进行归纳整理
|
AI芯片
AIGC视频生成/编辑技术调研报告
随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。
1942 3
AIGC视频生成/编辑技术调研报告
|
机器学习/深度学习 自然语言处理 数据建模
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
本文深入探讨了Transformer模型中的三种关键注意力机制:自注意力、交叉注意力和因果自注意力,这些机制是GPT-4、Llama等大型语言模型的核心。文章不仅讲解了理论概念,还通过Python和PyTorch从零开始实现这些机制,帮助读者深入理解其内部工作原理。自注意力机制通过整合上下文信息增强了输入嵌入,多头注意力则通过多个并行的注意力头捕捉不同类型的依赖关系。交叉注意力则允许模型在两个不同输入序列间传递信息,适用于机器翻译和图像描述等任务。因果自注意力确保模型在生成文本时仅考虑先前的上下文,适用于解码器风格的模型。通过本文的详细解析和代码实现,读者可以全面掌握这些机制的应用潜力。
950 3
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
|
机器学习/深度学习 自然语言处理 大数据
【Transformer系列(2)】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解
【Transformer系列(2)】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解
7635 2
【Transformer系列(2)】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解
|
机器学习/深度学习 算法
深度学习之因果发现算法
基于深度学习的因果发现算法是一个旨在从复杂数据中自动挖掘变量之间潜在因果关系的研究领域。它结合了传统因果推理方法与深度学习的强大特征提取能力,帮助应对高维、非线性数据中的因果结构发现。
1067 9

热门文章

最新文章