【NLP自然语言处理】初识深度学习模型Transformer-阿里云开发者社区

【NLP自然语言处理】初识深度学习模型Transformer

2024-10-11 135 发布于吉林

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

NLP自然语言处理_基础版，每接口每天50万次

简介： 【NLP自然语言处理】初识深度学习模型Transformer

学习目标

🍀 了解Transformer模型的作用.

🍀 了解Transformer总体架构图中各个组成部分的名称.

🍔 Transformer的诞生

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

论文地址: https://arxiv.org/pdf/1810.04805.pdf

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET，roBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer。

🍔 Transformer的优势

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

1、Transformer能够利用分布式GPU进行并行训练，提升模型训练效率.

2、在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.

下面是一张在测评比较图:

🍔 Transformer模型的作用

Transformer 是一种基于自注意力机制的深度学习模型，Transformer 的核心在于其能够处理序列数据时，同时考虑序列中所有元素之间的依赖关系，而不仅仅是像循环神经网络那样只能考虑序列中的顺序依赖。

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型，用于不同任务的迁移学习.
在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等.

🍔 Transformer总体架构图

2.1 Transformer总体架构

输入部分
输出部分
编码器部分
解码器部分

2.2 输入部分包含

源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器

2.3 输出部分包含

线性层
softmax层

2.4 编码器部分

由N个编码器层堆叠而成
每个编码器层由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

2.5 解码器部分

由N个解码器层堆叠而成
每个解码器层由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

🍔 小结

学习了Transformer模型的作用:

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型，用于不同任务的迁移学习.

Transformer总体架构可分为四个部分:

输入部分
输出部分
编码器部分
解码器部分

输入部分包含:

源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器

输出部分包含:

线性层
softmax处理器

编码器部分:

由N个编码器层堆叠而成
每个编码器层由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

解码器部分:

由N个解码器层堆叠而成
每个解码器层由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

【NLP自然语言处理】初识深度学习模型Transformer

🍔 Transformer的诞生

🍔 Transformer的优势

🍔 Transformer模型的作用