自然语言处理:transfomer架构

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理:transfomer架构

介绍

transfomer是自然语言处理中的一个重要神经网络结构,算是在传统RNN和LSTM上的一个升级,接下来让我们来看看它有处理语言序列上有哪些特殊之处

模型整体架构

原论文中模型的整体架构如下,接下来我们将层层解析各层的作用和代码实现

该模型架构主要包含的基本层有

  • 嵌入层(Input Embedding)
  • 位置编码层(Positional Encoding)
  • 多头注意力层(Multi-Head Attention)
  • 全连接层(Feed Forward)

位置编码层

作用

顾名思义,位置编码层使模型能够记住输入句子的位置信息,语序在理解自然语言方面起到很大的作用

位置编码层的结构

  • 嵌入层(Input Embedding)
  • 位置编码层(Positional Encoding)

嵌入层扩充句子维度,这也是模型训练的关键数据,位置编码层则给句子中的每个词赋予位置信息,因为嵌入层在torch中有函数可以直接调用,所以这里和位置编码层放在一起处理

位置编码的方法

我们将pe当作位置编码,pos为句子当中的第pos个词,i是第i个词向量维度,dmodel为编码维度总数。则

P E p o s , 2 i = s i n ( p o s 1000 0 i / d m o d e l ) PE_{pos, 2i}=sin(\frac{pos}{10000^{i/dmodel}})PEpos,2i=sin(10000i/dmodelpos)

P E p o s , 2 i + 1 = c o s ( p o s 1000 0 i / d m o d e l ) PE_{pos, 2i+1}=cos(\frac{pos}{10000^{i/dmodel}})PEpos,2i+1=cos(10000i/dmodelpos)

使用正弦和余弦函数有几个原因:

  • 可学习性: 通过使用正弦和余弦函数,模型可以学习位置编码的参数。这允许模型自动调整和适应不同任务和数据集的序列长度,而无需手动调整位置编码的固定参数。
  • 连续性: 正弦和余弦函数是连续的,这有助于确保位置编码的连续性。这对于模型学习和推广到未见过的序列长度是有益的。
  • 相对位置信息: 正弦和余弦函数的组合能够编码相对位置信息。这意味着不同位置之间的距离和关系可以以一种更灵活的方式进行编码,而不是简单的线性关系。
  • 周期性: 正弦和余弦函数具有周期性,这有助于模型在处理不同尺度的序列时更好地捕捉全局位置信息。

具体代码

接下来我们来看实现位置编码层的代码

这里以输入句子长度为50来举例

# 定义位置编码层
class PositionEmbedding(torch.nn.Module) :
    def __init__(self):
        super().__init__()
        # pos是第几个词,i是第几个词向量维度,d_model是编码维度总数
        def get_pe(pos, i, d_model):
            d = 1e4**(i / d_model)
            pe = pos / d
            if i % 2 == 0:
                return math.sin(pe) # 偶数维度用sin
            return math.cos(pe) # 奇数维度用cos
        # 初始化位置编码矩阵
        pe = torch.empty(50, 32)
        for i in range(50):
            for j in range(32):
                pe[i, j] = get_pe(i, j, 32)
        pe = pe. unsqueeze(0) # 增加一个维度,shape变为[1,50,32]
        # 定义为不更新的常量
        self.register_buffer('pe', pe)
        # 词编码层
        self.embed = torch.nn.Embedding(39, 32) # 39个词,每个词编码成32维向量
        # 用正太分布初始化参数
        self.embed.weight.data.normal_(0, 0.1)
    def forward(self, x):
        # [8,50]->[8,50,32]
        embed = self.embed(x)
        # 词编码和位置编码相加
        # [8,50,32]+[1,50,32]->[8,50,32]
        embed = embed + self.pe
        return embed

Mask

介绍

mask就是掩码,用来掩盖句子中的某些词,使模型忽略它,在transfomer中,mask有两种

  • mask_pad
  • mask_tril

mask_pad的作用

我们在训练模型的时候,句子往往是一批一批放入模型的,由于每个句子的长短不一,这时我们就需要规定一个固定长度,而那些长度不够的句子我们就用PAD来补充,因为PAD本身没有意义,所以我们要使用mask_pad来遮挡,使模型忽略pad

mask_tril的作用

mask_tril也叫上三角mask,transfomer的解码器任务是根据前一个词预测下一个词,因此给出第一个词时,第一个词之后的词被遮挡,给出第二个词时,第二个词之后的词被遮挡,以此类推,就是一个上三角矩阵,仍不理解可以根据具体代码来看

具体代码

mask_pad

# 定义mask_pad函数
def mask_pad(data):
    # b句话,每句话50个词,这里是还没embed的
    # data = [b, 50]
    # 判断每个词是不是<PAD>
    mask = data == vocab_x['<PAD>']
    # [b, 50] -> [b, 1, 1, 50]
    mask = mask.reshape(-1, 1, 1, 50)
    # 在计算注意力时,计算50个词和50个词相互之间的注意力,所以是个50*50的矩阵
    # PAD的列为True,意味着任何词对PAD的注意力都是0,但是PAD本身对其它词的注意力并不是0,所以是PAD的行不为True
    # 复制n次
    # [b, 1, 1, 50] -> [b, 1, 50, 50]
    mask = mask.expand(-1, 1, 50, 50) # 根据指定的维度扩展
    return mask

mask_tril

# 定义mask_tril函数
def mask_tril(data):
    # b句话,每句话50个词,这里是还没embed的
    # data = [b, 50]
    # 50*50的矩阵表示每个词对其它词是否可见
    # 上三角矩阵,不包括对角线,意味着对每个词而言它只能看到它自己和它之前的词,而看不到之后的词
    # [1, 50, 50]
    """
    [[0, 1, 1, 1, 1],
    [0, 0, 1, 1, 1],
    [0, 0, 0, 1, 1],
    [0, 0, 0, 0, 1],
    [0, 0, 0, 0, 0]]
    """
    tril = 1 - torch.tril(torch.ones(1, 50, 50, dtype=torch.long)) # torch.tril返回下三角矩阵,则1-tril返回上三角矩阵
    # 判断y当中每个词是不是PAD, 如果是PAD, 则不可见
    # [b, 50]
    mask = data == vocab_y['<PAD>'] # mask的shape为[b, 50]
    # 变形+转型,为了之后的计算
    # [b, 1, 50]
    mask = mask.unsqueeze(1).long() # 在指定位置插入维度,mask的shape为[b, 1, 50]
    # mask和tril求并集
    # [b, 1, 50] + [1, 50, 50] -> [b, 50, 50]
    mask = mask + tril
    # 转布尔型
    mask = mask > 0 # mask的shape为[b, 50, 50]
    # 转布尔型,增加一个维度,便于后续的计算
    mask = (mask == 1).unsqueeze(dim=1) # mask的shape为[b, 1, 50, 50]
    return mask

注意力层

为什么需要注意力层

首先我们要知道在transfomer中,每个词都有一个注意力矩阵,包含对句子中其他词语的注意程度,计算注意力就是在模型训练中使模型学习到每个词语与其他词语关联程度的大小

注意力的计算

我们给每一个词向量三个矩阵,Q,K,V,再定义注意力为Z,则

Z = S o f t m a x ( Q ⋅ K d k ) ⋅ V Z=Softmax(\frac{Q·K}{\sqrt{d_{k}}})·VZ=Softmax(dkQK)V

其中d k d_{k}dk是向量编码维度

其中还要对mask进行操作

具体流程可见下列代码

具体代码

# 定义注意力计算函数
def attention(Q, K, V, mask):
    """
    Q:torch.randn(8, 4, 50, 8)
    K:torch.randn(8, 4, 50, 8)
    V:torch.randn(8, 4, 50, 8)
    mask:torch.zeros(8, 1, 50, 50)
    """
    # b句话,每句话50个词,每个词编码成32维向量,4个头,每个头分到8维向量
    # Q、K、V = [b, 4, 50, 8]
    # [b, 4, 50, 8] * [b, 4, 8, 50] -> [b, 4, 50, 50]
    # Q、K矩阵相乘,求每个词相对其它所有词的注意力
    score = torch.matmul(Q, K.permute(0, 1, 3, 2)) # K.permute(0, 1, 3, 2)表示将K的第3维和第4维交换
    # 除以每个头维数的平方根,做数值缩放
    score /= 8**0.5
    # mask遮盖,mask是True的地方都被替换成-inf,这样在计算softmax时-inf会被压缩到0
    # mask = [b, 1, 50, 50]
    score = score.masked_fill_(mask, -float('inf')) # masked_fill_()函数的作用是将mask中为1的位置用value填充
    score = torch.softmax(score, dim=-1) # 在最后一个维度上做softmax
    # 以注意力分数乘以V得到最终的注意力结果
    # [b, 4, 50, 50] * [b, 4, 50, 8] -> [b, 4, 50, 8]
    score = torch.matmul(score, V)
    # 每个头计算的结果合一
    # [b, 4, 50, 8] -> [b, 50, 32]
    score = score.permute(0, 2, 1, 3).reshape(-1, 50, 32)
    return score


相关文章
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理基础技术详细介绍(三)
自然语言处理基础技术详细介绍(三)
104 0
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的突破与未来展望###
本文深入探讨了深度学习技术在自然语言处理(NLP)领域的最新进展,重点分析了其在该领域实现的重大突破及面临的挑战。通过对比传统方法与深度学习模型的差异,阐述了深度学习如何推动NLP领域的边界拓展,并对未来发展趋势进行了展望。 ###
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深度学习与自然语言处理的融合
本文探讨了深度学习在自然语言处理中的应用,通过实例展示了深度学习技术如何提升自然语言处理的效果。我们将介绍深度学习和自然语言处理的基本概念,分析深度学习在自然语言处理中的具体应用,并通过案例展示其效果。最后,我们将总结深度学习对自然语言处理的影响,并展望未来的发展方向。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的应用与未来展望
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,重点分析了神经网络模型如循环神经网络(RNN)、长短期记忆网络(LSTM)和Transformer等在文本生成、语义理解及情感分析等任务中的卓越表现。通过具体案例展示了这些模型如何有效解决传统方法难以处理的问题,并讨论了当前面临的挑战及未来可能的发展方向,为进一步研究提供了新的视角和思路。
78 5
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
探索深度学习与自然语言处理的最新进展
【10月更文挑战第6天】探索深度学习与自然语言处理的最新进展
23 0
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
探索深度学习与自然语言处理(NLP)在智能客服系统中的创新应用
探索深度学习与自然语言处理(NLP)在智能客服系统中的创新应用
155 0
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深度学习在自然语言处理中的应用与展望
本文深入探讨了深度学习技术在自然语言处理(NLP)领域的广泛应用及其未来发展方向。通过具体案例分析,如机器翻译、情感分析和文本生成等,展示了深度学习如何提高NLP任务的准确性和效率。同时,文章也讨论了当前深度学习在NLP中面临的挑战,包括数据偏见、模型解释性不足等问题,并提出了可能的解决策略。最后,本文展望了深度学习与NLP结合的未来趋势,强调了持续创新和跨学科合作的重要性。
|
4月前
|
机器学习/深度学习 自然语言处理 监控
自然语言处理技术有哪些
【7月更文挑战第30天】自然语言处理技术有哪些
126 10
|
4月前
|
自然语言处理 搜索推荐 算法
自然语言处理能力
【7月更文挑战第7天】自然语言处理能力
34 3
|
6月前
|
机器学习/深度学习 数据采集 人工智能
基于深度学习的自然语言处理技术在智能问答系统中的应用
随着人工智能技术的飞速发展,自然语言处理(NLP)已成为连接人类与机器的桥梁。本文深入探讨了深度学习在自然语言处理领域中的应用,尤其是其在构建智能问答系统中的作用。通过对现有技术的剖析与最新研究成果的整合,文章展示了如何利用循环神经网络(RNN)、长短期记忆网络(LSTM)以及注意力机制等深度学习模型来提高问答系统的理解能力和响应质量。本研究不仅关注模型的架构创新,也着重于数据处理、模型训练和优化策略等实践细节,力求为读者提供一个全面而深刻的技术视角。