备案控制台

开发者社区人工智能文章正文

self-attention - 李宏毅笔记

2023-06-20 149

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： self-attention - 李宏毅笔记

1.简介

在最常见的深度学习应用中图像识别，语音识别

图像识别

我们通常是输入一张图片，一组向量，加入到模型，模型为我们输出一个类别class或者scalar

语音识别

我们通常是输入一段语音，一序列的向量，加入到模型，模型为我们输出一个类别class或者scalar

1.1 不同输入的向量表示方法

在日常的深度学习中，我们对模型有不同的输入，比如文本，图片，语音，图等等，我们需要对这样的输入转化为能被模型更好处理的向量。

对于图片来说，图片本质就是一个向量集组合而成的，因此不需要做处理

对于文本来说，我们需要对文本的单词，把单词映射到一组向量中，用不同的向量表示来代表一个单词。

我们将apple，bag，cat，dog用不同的向量形式表示：

self-attention就是一种新的向量计算公式，将输入层的输入的向量，通过不同的self-attention公式计算出，新的向量表示方式

1.2 为什么用self-attention

在我们输入的某一段文本时，譬如：this is a cat。

其中这个is，不只是单独一个向量独立的，它其实也是由上下文this和a cat共同去确定的。

在文本也好，语音，图片都是如此，而self-attention计算公式，就是考虑到上下文对当前向量的影响。有点类似于RNN中的LSTM但是效果比LSTM更好。

2.self-attention原理

这里借用一下b站up主“狗中赤兔”说的。

我们可以假设self-attention是一个渣男从备胎中选择一个适合的自己的对象，适合度越高的备胎，渣男投入的时间金钱就会越多（注意力为越多）

渣男根据自身条件Q与备胎的条件K，计算其相似度（二个矩阵的相似度，也就是矩阵相关性），最后我们用计算出的相似度给匹配到的备胎V进行加权，就知道，渣男该为那个备胎付出更多的时间金钱了。

2.1 self-attention计算流程

2.1.1 渣男自身条件q与备胎条件k计算相似度

2.1.2 渣男对每个备胎的相似度整合进行归一化处理。

2.1.3 渣男将不同备胎的相似度对匹配到的备胎进行加权处理

2.2 Multi-head Self-attention

在self-attention还有一种self-attention的变体叫Multi-head Self-attention（多头）。

步骤 1：

步骤 2：

步骤 3：

3.self- attention 与cnn，rnn

3.1 self-attention的应用

沿着self-attention出现了二种结构的变体

Transformer
BERT

3.1 self-attention vs cnn

在cnn中的卷积计算，其实也是一种注意力的计算，只不过是均匀的注意力乘积，也就是说cnn其实是self-attention的一种

self-attention 与cnn对比，数据集小的情况下，cnn精度更高，数据集更大的情况下，self-attention精度更高

3.1 self-attention vs rnn

RNN和self-attention的本质区别是，RNN必须把最左边的输入存入Memory里面然后一路带到最右边才能被最后的输出考虑，有这种序列的信息；而对于Self-attention的每一个Vector对于所有的输入都是一视同仁的，产生这种“天涯若比邻“的效果。

对于上下文来说rnn，认为上下文距离越近，影响越大，而self-attention对上下文不考虑距离，每一个词的影响都是一视同仁看待。

文章标签：

C++

语音技术

机器学习/深度学习

羽林小王子

目录

相关文章

xiaowang_lj

|

Web App开发存储 Android开发

update_engine简介

update_engine简介

xiaowang_lj

360 5 6

人民邮电出版社

|

人工智能机器学习/深度学习自然语言处理

带你读《创新之巅：未来十年重构商业的六大战略性技术》第一章未来十年重构商业的六大技术1.4超越深度学习：人工智能的未来…

带你读《创新之巅：未来十年重构商业的六大战略性技术》第一章未来十年重构商业的六大技术1.4

人民邮电出版社

340 0 0

谙忆

|

算法 JavaScript 测试技术

经典算法面试题目-设计算法移除字符串中重复的字符（1.3）

题目 Design an algorithm and write code to remove the duplicate characters in a string without using any additional buffer.

谙忆

931 0 0

2025「AI安全」全球攻防赛小编

|

2天前

|

人工智能运维安全

亚太厂商唯一！阿里云以应用身份服务IDaaS入选全球 Gartner Access Management 魔力象限

中国厂商0→1突破

2025「AI安全」全球攻防赛小编

1461 10 11

2025「AI安全」全球攻防赛小编

|

9天前

|

人工智能自然语言处理安全

双第一！阿里云领跑安全运营智能体

喜报～

2025「AI安全」全球攻防赛小编

2115 8 10

游客geb4fgnutonte

|

3天前

|

搜索推荐编译器 Linux

一个可用于企业开发及通用跨平台的Makefile文件

一款适用于企业级开发的通用跨平台Makefile，支持C/C++混合编译、多目标输出（可执行文件、静态/动态库）、Release/Debug版本管理。配置简洁，仅需修改带`MF_CONFIGURE_`前缀的变量，支持脚本化配置与子Makefile管理，具备完善日志、错误提示和跨平台兼容性，附详细文档与示例，便于学习与集成。

游客geb4fgnutonte

273 116 118

阿里云万网官方

|

18天前

|

域名解析人工智能

【实操攻略】手把手教学，免费领取.CN域名

即日起至2025年12月31日，购买万小智AI建站或云·企业官网，每单可免费领1个.CN域名首年！跟我了解领取攻略吧~

阿里云万网官方

2181 9 9

modelscope

|

5天前

|

数据采集人工智能自然语言处理

Meta SAM3开源：让图像分割，听懂你的话

Meta发布并开源SAM 3，首个支持文本或视觉提示的统一图像视频分割模型，可精准分割“红色条纹伞”等开放词汇概念，覆盖400万独特概念，性能达人类水平75%–80%，推动视觉分割新突破。

modelscope

371 38 40

Meta SAM3开源：让图像分割，听懂你的话

阿里云云原生

|

12天前

|

安全 Java Android开发

深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践

崩溃堆栈全是 a.b.c？Native 错误查不到行号？本文详解 Android 崩溃采集全链路原理，教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。

阿里云云原生

666 220 226

热门文章

最新文章

2019阿里云双11来袭,价格非常重要,但是懂得上云攻略更重要

西门子S7-1200编程实例，上升沿/下降沿指令如何使用？

推荐一款数据同步工具：FlinkX

OpenSearch大模型实践之Havenask篇

Hyper-V增强会话模式

SpringCloud Gateway的使用 + Nacos动态路由

顺丰基于 Flink CDC + Hudi 推进实时业务落地

Kotlin集合框架分析

替换指定目录以及其子目录下的字符串

JavaScript与ActionScript3那些事

Python 的基本类型

【01】百万级混音师-如何提取纯伴奏-依据官方最专业的文档说明-优雅草卓伊凡

GraphRAG进阶：基于Neo4j与LlamaIndex的DRIFT搜索实现详解

Kubernetes 调度策略深度拆解：我如何帮团队省下 90% 的资源成本

以 SLI/SLO 为驱动的可观测性：从定义到告警策略 — 写给在值班室里泡过夜的你

数据湖 vs 数据仓库 vs 数据湖仓一体：何时选哪种架构？——写给正在做数据平台的你

《音频格式优化的底层逻辑：场景拆解与解码兼容的实践指南》

《iOS相机/定位的精准适配指南》

Gemini 3 Nano Banana 的MCP服务器开发设计和国内直连方案

数字人实践案例分享

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云负载均衡收费标准：ALB、NLB和CLB价格，包括LCU费用、实例费和公网带宽价格