Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(1)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型

Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)

机器之心 2023-01-15 12:50 发表于北京

以下文章来源于机器之心SOTA模型,作者机器之心SOTA模型

机器之心专栏

本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 2 期进行连载,共介绍 10 文本生成任务上曾取得 SOTA 的经典模型。


  • 第 1 期:Seq2Seq(RNN)、Seq2Seq(LSTM)、Seq2Seq+Attention、SeqGAN、Transformer
  • 第 2 期:GPT、Bert、XLM、GPT-2、BART

您正在阅读的是其中的第 1 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。


本期收录模型速览

模型 SOTA!模型资源站收录情况 模型来源论文
Seq2Seq(RNN) https://sota.jiqizhixin.com/project/seq2seq

收录实现数量:3

支持框架:Torch、MindSpore

Sequence to sequence learning with neural networks
Seq2Seq(LSTM)

https://sota.jiqizhixin.com/project/seq2seq-lstm

收录实现数量:2

支持框架:PyTorch

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
Seq2Seq+Attention

https://sota.jiqizhixin.com/project/seq2seq-attention

收录实现数量:4

支持框架:TensorFlow、PyTorch


Neural machine translation by jointly learning to align and translate
SeqGAN https://sota.jiqizhixin.com/project/seqgan

收录实现数量:22

支持框架:TensorFlow、PyTorch

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
Transformer https://sota.jiqizhixin.com/project/transformer-2

收录实现数量:9

支持框架:TensorFlow、PyTorch等

Attention is all you need

文本生成(Neural Language Generation,NLG)是指从非语言的表示生成人类可以理解的文本。根据非语言表示的不同划分,文本生成包括“文本→文本”、“数据→文本”、“图像→文本”。随着深度学习、知识图谱等前沿技术的发展,基于图像生成文本描述的实验成果在不断被刷新。基于GAN的图像文本生成技术已经获得了非常好的效果,不仅能够根据图片生成非常好的描述,还能根据文本输出生成对应的图片。由数据生成文本,目前主要用于新闻撰写领域,中文和英文都有很大的进展。

从应用任务的领域细分,机器翻译、对话系统(目标导向、开放式)、故事生成、诗歌生成、文本摘要等等都属于文本生成的范畴。与其他自然语言处理技术类似,文本生成也主要包括传统的文本生成方法(基于规则、基于统计)和基于神经网络的文本生成方法两类。

本文回顾文本生成领域必备的TOP模型,聚焦于“文本→文本”。所选出进行介绍的模型在提出之时,其目的可能是解决机器翻译、文本摘要、对话系统等不同的任务,因其经典性以及对文本生成整个领域中不同应用任务的巨大推动,我们都放入本文介绍。而针对具体的细分应用领域,例如机器翻译任务必备的TOP模型、文本摘要任务必备的TOP模型等等,我们将在具体的专题文章中详细介绍其中经典模型的改进历程。


Sequence to sequence learning with neural networks  


本文是Sutskever I.等人于2014年发表在NeurIPS的一篇论文,是自然语言处理中最基础的Seq2Seq模型,目前引用量已经超过12000次。最常见的Seq2Seq模型是解码器-编码器(Encoder-Decoder)模型,由于时序数据的序列性质,通常情况下,我们使用RNN(Recurrent Neural Network)在Encoder中得到输入序列的特征向量,再将此特征向量输入Decoder中的另一个RNN模型,逐一生成目标序列的每一个点。本文使用多层长短期记忆网络(LSTM)将输入序列映射到一个固定维度的向量,然后使用另一个深度LSTM从向量中解码目标序列。通过EncoderRNN和DecoderRNN,我们可以得到预测的序列,将预测的序列与基准真值的序列对比计算误差,更新参数来不断的训练模型。

图1. 模型读取一个输入句子 "ABC "并生成 "WXYZ "作为输出句子。该模型在输出句末标记后停止预测。请注意,LSTM是反向读取输入句子的,因为这样做在数据中引入了许多短期的依赖关系,使优化问题更加容易

RNN是前馈神经网络对序列的自然概括。给定一个输入序列(x_1, ... , x_t),一个标准的RNN通过迭代以下公式计算出一个输出序列(y_1, ... , y_T):


只要提前知道输入和输出之间的排列,RNN就可以很容易地将序列映射到序列。在本文发表的阶段,还不清楚如何将RNN应用于输入和输出序列具有不同长度的复杂和非单调关系的问题。一般序列学习的最简单策略是用一个RNN将输入序列映射到一个固定大小的向量,然后用另一个RNN将该向量映射到目标序列。虽然这在原则上是可行的,因为RNN被提供了所有的相关信息,但由于由此产生的长期依赖性,将很难训练RNN。然而,众所周知,长短期记忆(LSTM)可以学习具有长距离时间依赖性的问题,所以LSTM在这种情况下可能会成功。

LSTM的目标是估计条件概率p(y1, . . , yT′ |x1, . . , xT),其中(x1, . . , xT)是一个输入序列,y1, . . . , yT′是对应的输出序列,其长度T′可能与T不同。LSTM计算这个条件概率的方法是:首先获得由LSTM的最后一个隐藏状态给出的输入序列(x1, ..., xT)的固定维度表示,然后用标准的LSTM计算y1, ..., yT′的概率,该公式的初始隐藏状态被设置为x1, ..., xT的表示v:


在这个方程中,每个p(yt|v, y_1, ..., y_t-1)分布都是用词汇表中的所有单词的softmax来表示。此外,要求每个句子以一个特殊的句末符号"<EOS>"结束,这使得模型能够在所有可能的长度的序列上定义一个分布。


当前 SOTA!平台收录 Seq2Seq(RNN) 共 3 个模型实现资源,支持的主流框架包含 Torch、MindSpore 等。

项目 SOTA!平台项目详情页
Seq2Seq(RNN) 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/seq2seq


Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation


本文提出了基于短语学习的Seq2Seq模型,该模型是由Cho, K.等人于2014年提出的,目前的引用量超过了11000次。

在该模型中Encoder的实现与第一篇文章没有特别大的区别,除了基础的RNN之外,LSTM以及GRU都可以作为选择,LSTM与GRU在性能上并没有绝对的优劣之分,需要根据不同的需求做选择。而Decoder与前一篇文章中的方法有较大区别。在前一章的文章中提到,源序列经过Encoder后会得到一个最终的隐藏状态,该隐藏状态z包含了所有源序列的信息,并会成为Decoder生成目标序列的初始隐藏状态。这样的做法没有充分利用源序列的信息。因此,Cho, K.等人做了以下改进,在每一步DecoderRNN输入层及全连接预测单词层加入z,同时,在全连接层预测下一个单词时,不仅加入了Encoder的最终隐藏状态z,还加入了当前单词经过嵌入层之后的结果。模型结构如图2:


图2.  RNN Encoder–Decoder 架构


如图2,yt和h_<t>都以y_t-1和输入序列的摘要c为条件。因此,解码器在时间t的隐藏状态是通过以下方式计算的:


下一个符号的条件分布是:


联合训练RNN编码器-解码器的两个组成部分以最大化条件对数似然:


一旦RNN编码器-解码器训练完毕,该模型可以用两种方式使用。一种方式是使用该模型来生成一个给定的输入序列的目标序列。另一方面,该模型可用于对给定的一对输入和输出序列进行评分。

此外,本文还提出了一种新型的隐藏单元,该单元由LSTM单元驱动,更易于计算和实现。图3显示了图形建议隐藏单元的描述。

图3. 所提出的隐藏激活单元的图示。更新门z选择隐藏状态是否被更新为新的隐藏状态h˜。重置门r决定是否忽略先前的隐藏状态

首先,复位门r_j计算如下:


更新门z_j的计算方法是:


h_j的实际激活计算为:


在这种表述中,当复位门接近0时,隐藏状态被强制忽略之前的隐藏状态,只用当前的输入进行复位。这有效地允许隐藏状态放弃任何在未来发现不相关的信息,因此,允许一个更紧凑的表述。


当前 SOTA!平台收录 Seq2Seq(LSTM) 共 2 个模型实现资源,支持的主流框架包含 PyTorch等。

项目 SOTA!平台项目详情页
Seq2Seq(LSTM) 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/seq2seq-lstm


Neural machine translation by jointly learning to align and translate  


前文介绍了两种Seq2Seq的模型,虽然在第二种模型里,可以很好的提取源序列的信息,并用在每一个目标序列的输出上,但仍然无法避免另一个问题:无论是自然语言里的句子,还是轨迹数据,这些序列中的每一个点更多情况下是受周围或者局部其他点的影响,而不是整个序列。因此,在生成目标序列时,更好的办法不是在每一步加入之前源序列的全部信息,而是只关注部分信息。Bahdanau, D.等人同样也在2014年发表一篇影响力深远的论文,他们的亮点是首次在Seq2Seq模型中加入了Attention思想,目前引用量已经超过15000次。注意力机制是提供源序列的更丰富的编码的机制,从源序列编码构建可以被解码器使用的上下文向量。注意力机制使得模型在目标序列预测每个单词的过程中,学习到源序列中编码的单词如何以及以什么程度集中注意力。


图4. 模型在给定的源句(x_1, x_2, ..., x_T)中生成第t个目标词y_t

模型的Encoder与标准Seq2Seq无异。对于Decoder部分,定义条件概率:


概率是以每个目标词y_i的不同上下文向量c_i为条件的。上下文向量c_i取决于注释序列(h_1,...,h_Tx),编码器将输入的句子映射到该注释上。每个注释h_i包含整个输入序列的信息,主要集中在输入序列的第i个词的周围部分。然后,将上下文向量c_i计算为这些注释h_i的加权和:


将alignment模型a参数化为一个前馈神经网络,它与所有其他组件共同训练。


当前 SOTA!平台收录 Seq2Seq+Attention 共 4 个模型实现资源,支持的主流框架包含 PyTorch、TensorFlow 等。

项目 SOTA!平台项目详情页
Seq2Seq+Attention 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/seq2seq-attention




相关文章
|
10月前
|
机器学习/深度学习 自然语言处理 语音技术
从 Seq2Seq 到 Attention:彻底改变序列建模
从 Seq2Seq 到 Attention:彻底改变序列建模
48 0
|
9月前
|
机器学习/深度学习 数据采集 自然语言处理
【文本摘要(2)】pytorch之Seq2Seq(下)
【文本摘要(2)】pytorch之Seq2Seq(上)
85 0
|
3月前
|
机器学习/深度学习 存储 自然语言处理
NLP中的RNN、Seq2Seq与attention注意力机制(下)
NLP中的RNN、Seq2Seq与attention注意力机制(下)
36 1
|
3月前
|
机器学习/深度学习 存储 自然语言处理
NLP中的RNN、Seq2Seq与attention注意力机制(上)
NLP中的RNN、Seq2Seq与attention注意力机制
42 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
详细介绍Seq2Seq、Attention、Transformer !!
详细介绍Seq2Seq、Attention、Transformer !!
99 0
|
9月前
|
机器学习/深度学习 存储 自然语言处理
深入解析序列模型:全面阐释 RNN、LSTM 与 Seq2Seq 的秘密
深入解析序列模型:全面阐释 RNN、LSTM 与 Seq2Seq 的秘密
120 0
|
9月前
|
机器学习/深度学习 自然语言处理 PyTorch
【文本摘要(3)】Pytorch之Seq2seq: attention
【文本摘要(3)】Pytorch之Seq2seq: attention
60 0
|
9月前
|
机器学习/深度学习 自然语言处理 PyTorch
【文本摘要(2)】pytorch之Seq2Seq(上)
【文本摘要(2)】pytorch之Seq2Seq
131 0
|
机器学习/深度学习 人工智能 自然语言处理
Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(2)
Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型
138 0
|
机器学习/深度学习 数据采集 自然语言处理
机器翻译——基于注意力机制的seq2seq结构(上)
机器翻译——基于注意力机制的seq2seq结构