小白总结Transformer模型要点(二)(上)

简介: 本文主要总结了Transformer模型的要点,包含模型架构各部分组成和原理、常见问题汇总、模型具体实现和相关拓展学习。

5.LayerNorm

在NLP中很少使用BN,基本都使用LN,因为BN的效果很差;

后续也有很多对BN的改进,以支持NLP任务。

特征缩放是为了消除量纲的影响,让模型收敛得更快。

2345_image_file_copy_178.jpg2345_image_file_copy_179.jpg

BN是对一个Batch中的多个样本的同一维度的数据进行归一化处理,可以看作一个Batch中的所有样本的同一个特征(例如人的身高、体重等多个维度分别进行BN)。


BN优点:


可以解决内部协变量偏移;


缓解了梯度饱和问题(如果使用sigmoid激活函数的话),加快收敛。


BN的缺点:


batch_size较小的时候,效果差


BN的假设是使用一个Batch中样本的均值和方差来模拟全部数据的均值和方差,此时如果Batch的数量很少时,就会出现假设偏差较大的情况。


BN在RNN中效果比较差


这一点和第一点原因很类似。

2345_image_file_copy_180.jpg

  • 因为RNN的输入是动态的,即数据的长度可能不一样,因此不能有效地得到整个Batch的均值和方差。

LN是对一个样本的所有特征进行缩放,例如对一个句子样本的所有单词做缩放。

为什么使用LN、不使用BN:

2345_image_file_copy_181.jpg

可以看到,相比于BN,LN在NLP任务中更有意义,例如我和今具有不同的语义信息,而LN是对一个句子进行缩放,一个句子的所有词存在于同一个语义信息中,这样可以得到更容易理解的语义。

前馈神经网络:

2345_image_file_copy_182.jpg同时,FFN也是只考虑对单个位置进行建模,不同位置之间共享参数,类似于1*1的pointwise的CNN。

6.Decoder

2345_image_file_copy_183.jpg

2345_image_file_copy_184.jpg

之所以要进行Mask遮挡:

2345_image_file_copy_185.jpg

没有遮挡

2345_image_file_copy_186.jpg

可以看到, 所有单词都会为You这个单词提供信息。


但是通过这样的方式训练出来的模型,在预测阶段会出现问题,比如预测阶段的当前单词为You,并不知道ground truth中You后面的信息(单词)什么(这也就是预测的出发点),看不见未来时刻的单词;因此如果在训练时不遮挡掉后面的单词,则模型在训练和测试时就会存在gap。


有遮挡

2345_image_file_copy_188.jpg

在训练和测试时都遮挡掉当前单词后面的单词,从而消除了训练和测试的gap,保证了一致性。


遮挡可以直观地理解为:在进行翻译时,遮挡掉后面的单词,让人来翻译得到后面位置的单词,也就是通过训练得到答案,而不是直接给出答案。


同时需要注意,在进行Mask时,有2个地方需要分别考虑:


(1)自注意力层Mask Multi-Head Attention,有2部分需要进行Mask,一部分是解码端输入的Padding的 Mask,另一部分是当前单词后面的单词进行Mask(上三角矩阵):


图示如下:

2345_image_file_copy_189.jpg

矩阵中,为1的位置是应该遮挡起来、看不到的。

相关文章
|
机器学习/深度学习 人工智能 大数据
【重磅】文娱技术喜提多篇ACM MM论文
2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。
1350 0
【重磅】文娱技术喜提多篇ACM MM论文
|
Kubernetes Java 关系型数据库
云原生之Kubernetes 集群部署nacos 1.4(集群版)
注册中心是微服务架构最核心的组件。它起到新服务节点的注册与状态维护的作用。微服务节点在启动时会将自身的服务名称、IP、端口等信息在注册中心中进行登记,注册中心会定时检查该节点的运行状态。注册中心通常会采用心跳机制最大程度保证其持有的服务节点列表都是可用的。
1109 1
云原生之Kubernetes 集群部署nacos 1.4(集群版)
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch应用实战六:利用LSTM实现文本情感分类
PyTorch应用实战六:利用LSTM实现文本情感分类
707 0
|
存储 安全 文件存储
网盘与NAS:数据存储的两大选择
网盘与NAS:数据存储的两大选择
450 7
|
10月前
|
机器学习/深度学习 大数据 数据管理
一图尽览:AllData数据中台商业版与开源版功能对比
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
机器学习/深度学习 计算机视觉 异构计算
Darknet53详细原理(含torch版源码)
Darknet53详细原理(含torch版源码)—— cifar10
1044 0
Darknet53详细原理(含torch版源码)
|
11月前
|
机器学习/深度学习 人工智能 算法
昇腾AI行业案例(一):基于AI图像处理的疲劳驾驶检测
在本实验中,您将学习如何使用利用CV(Computer Vision)领域的AI模型来构建一个端到端的疲劳驾驶检测系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
517 3
|
11月前
|
机器学习/深度学习 存储 人工智能
人工智能的三大主义
人工智能的三大主义之一——符号主义,通过数学和逻辑符号构建表达式以模拟人类思维。其代表性成果包括1956年的“逻辑理论家”程序和上世纪80年代的专家系统。1997年,“深蓝”计算机击败国际象棋冠军卡斯帕罗夫,是符号主义在博弈领域的巅峰之作。然而,由于人类智能的复杂性和广泛性,符号主义难以完全模拟人类感知和潜智能,逐渐走向衰落。
|
机器学习/深度学习 人工智能 自然语言处理
从人工智能到大模型的演变
本文概述了人工智能从早期的规则基础系统到现代大模型的演变过程,涵盖了符号主义、专家系统、统计学习、深度学习、自然语言处理以及大模型的出现与应用,分析了各阶段的关键技术和面临的挑战,展望了未来的发展方向。
636 3
|
弹性计算 异构计算
阿里云gpu服务器能否租用一周?租用一周需要多少钱?
阿里云gpu服务器能否租用一周?当然是可以的,至于价格,需要看所选gpu云服务器的具体实例规格和配置,短期租用可以选择租用一周或者月付,月付最长可以选择9个月,如果想长期使用,可以选择年付,年付最长可以选择1年。下面小编就为大家分享一下阿里云gpu云服务器租用一周和月付及年付的价格。
3130 0
阿里云gpu服务器能否租用一周?租用一周需要多少钱?