DL之self-attention:self-attention自注意力机制模块思路的8个步骤及其代码实现

简介: DL之self-attention:self-attention自注意力机制模块思路的8个步骤及其代码实现


目录

代码实现


 

 

相关文章

DL之Attention:Attention的简介、应用领域之详细攻略

DL之self-attention:self-attention的简介、应用之详细攻略

 

代码实现

1. import torch
2. 
3. #1、准备输入:Input 1、2、3
4. x = [[1, 0, 1, 0], 
5.      [0, 2, 0, 2],
6.      [1, 1, 1, 1]  ]
7. x = torch.tensor(x, dtype=torch.float32)
8. 
9. 
10. #2、初始化权重
11. w_key   = [ [0, 0, 1], [1, 1, 0], [0, 1, 0], [1, 1, 0] ]
12. w_query = [ [1, 0, 1], [1, 0, 0], [0, 0, 1], [0, 1, 1] ]
13. w_value = [ [0, 2, 0], [0, 3, 0], [1, 0, 3], [1, 1, 0] ]
14. 
15. w_key   = torch.tensor(w_key,   dtype=torch.float32)
16. w_query = torch.tensor(w_query, dtype=torch.float32)
17. w_value = torch.tensor(w_value, dtype=torch.float32)
18. 
19. 
20. #3、推导键、查询和值
21. keys   = x @ w_key
22. querys = x @ w_query
23. values = x @ w_value
24. 
25. print(keys)   # tensor([[0., 1., 1.], [4., 4., 0.], [2., 3., 1.]])
26. print(querys) # tensor([[1., 0., 2.], [2., 2., 2.], [2., 1., 3.]])
27. print(values) # tensor([[1., 2., 3.], [2., 8., 0.], [2., 6., 3.]])
28. 
29. 
30. #4、计算注意力得分
31. attn_scores = querys @ keys.t()
32. # tensor([[ 2.,  4.,  4.],  # attention scores from Query 1
33. #         [ 4., 16., 12.],  # attention scores from Query 2
34. #         [ 4., 12., 10.]]) # attention scores from Query 3
35. 
36. 
37. 
38. #5、计算softmax
39. from torch.nn.functional import softmax
40. attn_scores_softmax = softmax(attn_scores, dim=-1)
41. print('attn_scores_softmax:','\n',attn_scores_softmax)
42. # tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
43. #         [6.0337e-06, 9.8201e-01, 1.7986e-02],
44. #         [2.9539e-04, 8.8054e-01, 1.1917e-01]])
45. 
46. # For readability, approximate the above as follows
47. attn_scores_softmax = [  [0.0, 0.5, 0.5], [0.0, 1.0, 0.0], [0.0, 0.9, 0.1] ]
48. attn_scores_softmax = torch.tensor(attn_scores_softmax)
49. 
50. #6、将得分和值相乘
51. weighted_values = values[:,None] * attn_scores_softmax.t()[:,:,None]
52. print('weighted_values:','\n',weighted_values)
53. # tensor([[[0.0000, 0.0000, 0.0000], [0.0000, 0.0000, 0.0000], [0.0000, 0.0000, 0.0000]],
54. #         [[1.0000, 4.0000, 0.0000], [2.0000, 8.0000, 0.0000], [1.8000, 7.2000, 0.0000]],
55. #         [[1.0000, 3.0000, 1.5000], [0.0000, 0.0000, 0.0000], [0.2000, 0.6000, 0.3000]]])
56. 
57. #7、求和加权值
58. outputs = weighted_values.sum(dim=0)
59. # tensor([[2.0000, 7.0000, 1.5000], [2.0000, 8.0000, 0.0000], [2.0000, 7.8000, 0.3000]]) # Output1、2、3
60. print('outputs:','\n',outputs)
61. 
62. 
63. 
64.

 

相关文章
|
5月前
|
机器学习/深度学习 关系型数据库 MySQL
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
GQA是一种结合MQA和MHA优点的注意力机制,旨在保持MQA的速度并提供MHA的精度。它将查询头分成组,每组共享键和值。通过Pytorch和einops库,可以简洁实现这一概念。GQA在保持高效性的同时接近MHA的性能,是高负载系统优化的有力工具。相关论文和非官方Pytorch实现可进一步探究。
686 4
|
5月前
|
机器学习/深度学习 自然语言处理 并行计算
Self-Attention 原理与代码实现
Self-Attention 原理与代码实现
220 0
|
5月前
|
机器学习/深度学习 人工智能 数据可视化
图解Transformer——注意力计算原理
图解Transformer——注意力计算原理
135 0
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
CNN中的注意力机制综合指南:从理论到Pytorch代码实现
注意力机制已成为深度学习模型的关键组件,尤其在卷积神经网络(CNN)中发挥了重要作用。通过使模型关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等任务中的表现。本文将详细介绍CNN中的注意力机制,包括其基本概念、不同类型(如通道注意力、空间注意力和混合注意力)以及实际实现方法。此外,还将探讨注意力机制在多个计算机视觉任务中的应用效果及其面临的挑战。无论是图像分类还是医学图像分析,注意力机制都能显著提升模型性能,并在不断发展的深度学习领域中扮演重要角色。
62 10
|
3月前
|
机器学习/深度学习 Serverless 计算机视觉
【YOLOv8改进 - 注意力机制】Sea_Attention: Squeeze-enhanced Axial Attention,结合全局语义提取和局部细节增强
【YOLOv8改进 - 注意力机制】Sea_Attention: Squeeze-enhanced Axial Attention,结合全局语义提取和局部细节增强
|
3月前
|
机器学习/深度学习 存储 测试技术
【YOLOv10改进-注意力机制】iRMB: 倒置残差移动块 (论文笔记+引入代码)
YOLOv10专栏介绍了融合CNN与Transformer的iRMB模块,用于轻量级模型设计。iRMB在保持高效的同时结合了局部和全局信息处理,减少了资源消耗,提升了移动端性能。在ImageNet等基准上超越SOTA,且在目标检测等任务中表现优秀。代码示例展示了iRMB的实现细节,包括自注意力机制和卷积操作的整合。更多配置信息见相关链接。
|
5月前
|
机器学习/深度学习 自然语言处理 算法
长序列中Transformers的高级注意力机制总结
Transformers在处理长序列时面临注意力分散和噪音问题,随着序列增长,注意力得分被稀释,影响相关上下文表示。文章探讨了序列长度如何影响注意力机制,并提出了多种解决方案:局部敏感哈希减少计算需求,低秩注意力通过矩阵分解简化计算,分段注意力将输入分割处理,层次化注意力逐级应用注意力,递归记忆增强上下文保持,带有路由的注意力机制动态调整信息流,以及相对位置编码改进序列理解。这些方法旨在提高Transformer在长序列任务中的效率和性能。
131 3
|
4月前
|
测试技术 计算机视觉
【YOLOv8改进】LSKA(Large Separable Kernel Attention):大核分离卷积注意力模块 (论文笔记+引入代码)
YOLO目标检测专栏介绍了大可分卷积核注意力模块LSKA,用于解决VAN中大卷积核效率问题。LSKA通过分解2D卷积为1D卷积降低计算复杂度和内存占用,且使模型关注形状而非纹理,提高鲁棒性。在多种任务和数据集上,LSKA表现优于ViTs和ConvNeXt,代码可在GitHub获取。基础原理包括LSKA的卷积核分解设计和计算效率优化。示例展示了LSKA模块的实现。更多详情及配置参见相关链接。
|
4月前
|
机器学习/深度学习 计算机视觉 知识图谱
【YOLOv8改进】STA(Super Token Attention) 超级令牌注意力机制 (论文笔记+引入代码)
该专栏探讨YOLO目标检测的创新改进和实战应用,介绍了使用视觉Transformer的新方法。为解决Transformer在浅层处理局部特征时的冗余问题,提出了超级令牌(Super Tokens)和超级令牌注意力(STA)机制,旨在高效建模全局上下文。通过稀疏关联学习和自注意力处理,STA降低了计算复杂度,提升了全局依赖的捕获效率。由此构建的层次化视觉Transformer在ImageNet-1K、COCO检测和ADE20K语义分割任务上展现出优秀性能。此外,文章提供了YOLOv8中实现STA的代码示例。更多详细信息和配置可在相关链接中找到。
|
4月前
|
机器学习/深度学习 存储 计算机视觉
【YOLOv8改进】BRA(bi-level routing attention ):双层路由注意力(论文笔记+引入代码)
**BiFormer和HCANet摘要** BiFormer是CVPR2023提出的一种新型视觉Transformer,采用双层路由注意力机制实现动态稀疏注意力,优化计算效率和内存使用,适用于图像分类、目标检测和语义分割任务。代码可在GitHub获取。另一方面,HCANet是针对高光谱图像去噪的深度学习模型,融合CNN和Transformer,强化全局和局部特征建模,通过多尺度前馈网络提升去噪效果。HCANet在HSI数据集上表现优秀,其代码同样开放源代码。