Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)
机器之心 2023-01-15 12:50 发表于北京
以下文章来源于机器之心SOTA模型,作者机器之心SOTA模型
机器之心专栏
本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本文将分 2 期进行连载,共介绍 10 个在文本生成任务上曾取得 SOTA 的经典模型。
- 第 1 期:Seq2Seq(RNN)、Seq2Seq(LSTM)、Seq2Seq+Attention、SeqGAN、Transformer
- 第 2 期:GPT、Bert、XLM、GPT-2、BART
您正在阅读的是其中的第 1 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
本期收录模型速览
模型 | SOTA!模型资源站收录情况 | 模型来源论文 |
Seq2Seq(RNN) | https://sota.jiqizhixin.com/project/seq2seq 收录实现数量:3 支持框架:Torch、MindSpore |
Sequence to sequence learning with neural networks |
Seq2Seq(LSTM) | https://sota.jiqizhixin.com/project/seq2seq-lstm 收录实现数量:2 支持框架:PyTorch |
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation |
Seq2Seq+Attention | https://sota.jiqizhixin.com/project/seq2seq-attention 收录实现数量:4 支持框架:TensorFlow、PyTorch |
Neural machine translation by jointly learning to align and translate |
SeqGAN | https://sota.jiqizhixin.com/project/seqgan 收录实现数量:22 支持框架:TensorFlow、PyTorch |
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient |
Transformer | https://sota.jiqizhixin.com/project/transformer-2 收录实现数量:9 支持框架:TensorFlow、PyTorch等 |
Attention is all you need |
文本生成(Neural Language Generation,NLG)是指从非语言的表示生成人类可以理解的文本。根据非语言表示的不同划分,文本生成包括“文本→文本”、“数据→文本”、“图像→文本”。随着深度学习、知识图谱等前沿技术的发展,基于图像生成文本描述的实验成果在不断被刷新。基于GAN的图像文本生成技术已经获得了非常好的效果,不仅能够根据图片生成非常好的描述,还能根据文本输出生成对应的图片。由数据生成文本,目前主要用于新闻撰写领域,中文和英文都有很大的进展。
从应用任务的领域细分,机器翻译、对话系统(目标导向、开放式)、故事生成、诗歌生成、文本摘要等等都属于文本生成的范畴。与其他自然语言处理技术类似,文本生成也主要包括传统的文本生成方法(基于规则、基于统计)和基于神经网络的文本生成方法两类。
本文回顾文本生成领域必备的TOP模型,聚焦于“文本→文本”。所选出进行介绍的模型在提出之时,其目的可能是解决机器翻译、文本摘要、对话系统等不同的任务,因其经典性以及对文本生成整个领域中不同应用任务的巨大推动,我们都放入本文介绍。而针对具体的细分应用领域,例如机器翻译任务必备的TOP模型、文本摘要任务必备的TOP模型等等,我们将在具体的专题文章中详细介绍其中经典模型的改进历程。
Sequence to sequence learning with neural networks
本文是Sutskever I.等人于2014年发表在NeurIPS的一篇论文,是自然语言处理中最基础的Seq2Seq模型,目前引用量已经超过12000次。最常见的Seq2Seq模型是解码器-编码器(Encoder-Decoder)模型,由于时序数据的序列性质,通常情况下,我们使用RNN(Recurrent Neural Network)在Encoder中得到输入序列的特征向量,再将此特征向量输入Decoder中的另一个RNN模型,逐一生成目标序列的每一个点。本文使用多层长短期记忆网络(LSTM)将输入序列映射到一个固定维度的向量,然后使用另一个深度LSTM从向量中解码目标序列。通过EncoderRNN和DecoderRNN,我们可以得到预测的序列,将预测的序列与基准真值的序列对比计算误差,更新参数来不断的训练模型。
图1. 模型读取一个输入句子 "ABC "并生成 "WXYZ "作为输出句子。该模型在输出句末标记后停止预测。请注意,LSTM是反向读取输入句子的,因为这样做在数据中引入了许多短期的依赖关系,使优化问题更加容易
RNN是前馈神经网络对序列的自然概括。给定一个输入序列(x_1, ... , x_t),一个标准的RNN通过迭代以下公式计算出一个输出序列(y_1, ... , y_T):
只要提前知道输入和输出之间的排列,RNN就可以很容易地将序列映射到序列。在本文发表的阶段,还不清楚如何将RNN应用于输入和输出序列具有不同长度的复杂和非单调关系的问题。一般序列学习的最简单策略是用一个RNN将输入序列映射到一个固定大小的向量,然后用另一个RNN将该向量映射到目标序列。虽然这在原则上是可行的,因为RNN被提供了所有的相关信息,但由于由此产生的长期依赖性,将很难训练RNN。然而,众所周知,长短期记忆(LSTM)可以学习具有长距离时间依赖性的问题,所以LSTM在这种情况下可能会成功。
LSTM的目标是估计条件概率p(y1, . . , yT′ |x1, . . , xT),其中(x1, . . , xT)是一个输入序列,y1, . . . , yT′是对应的输出序列,其长度T′可能与T不同。LSTM计算这个条件概率的方法是:首先获得由LSTM的最后一个隐藏状态给出的输入序列(x1, ..., xT)的固定维度表示,然后用标准的LSTM计算y1, ..., yT′的概率,该公式的初始隐藏状态被设置为x1, ..., xT的表示v:
在这个方程中,每个p(yt|v, y_1, ..., y_t-1)分布都是用词汇表中的所有单词的softmax来表示。此外,要求每个句子以一个特殊的句末符号"<EOS>"结束,这使得模型能够在所有可能的长度的序列上定义一个分布。
当前 SOTA!平台收录 Seq2Seq(RNN) 共 3 个模型实现资源,支持的主流框架包含 Torch、MindSpore 等。
项目 | SOTA!平台项目详情页 |
Seq2Seq(RNN) | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/seq2seq |
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
本文提出了基于短语学习的Seq2Seq模型,该模型是由Cho, K.等人于2014年提出的,目前的引用量超过了11000次。
在该模型中Encoder的实现与第一篇文章没有特别大的区别,除了基础的RNN之外,LSTM以及GRU都可以作为选择,LSTM与GRU在性能上并没有绝对的优劣之分,需要根据不同的需求做选择。而Decoder与前一篇文章中的方法有较大区别。在前一章的文章中提到,源序列经过Encoder后会得到一个最终的隐藏状态,该隐藏状态z包含了所有源序列的信息,并会成为Decoder生成目标序列的初始隐藏状态。这样的做法没有充分利用源序列的信息。因此,Cho, K.等人做了以下改进,在每一步DecoderRNN输入层及全连接预测单词层加入z,同时,在全连接层预测下一个单词时,不仅加入了Encoder的最终隐藏状态z,还加入了当前单词经过嵌入层之后的结果。模型结构如图2:
图2. RNN Encoder–Decoder 架构
如图2,yt和h_<t>都以y_t-1和输入序列的摘要c为条件。因此,解码器在时间t的隐藏状态是通过以下方式计算的:
下一个符号的条件分布是:
联合训练RNN编码器-解码器的两个组成部分以最大化条件对数似然:
一旦RNN编码器-解码器训练完毕,该模型可以用两种方式使用。一种方式是使用该模型来生成一个给定的输入序列的目标序列。另一方面,该模型可用于对给定的一对输入和输出序列进行评分。
此外,本文还提出了一种新型的隐藏单元,该单元由LSTM单元驱动,更易于计算和实现。图3显示了图形建议隐藏单元的描述。
图3. 所提出的隐藏激活单元的图示。更新门z选择隐藏状态是否被更新为新的隐藏状态h˜。重置门r决定是否忽略先前的隐藏状态
首先,复位门r_j计算如下:
更新门z_j的计算方法是:
h_j的实际激活计算为:
在这种表述中,当复位门接近0时,隐藏状态被强制忽略之前的隐藏状态,只用当前的输入进行复位。这有效地允许隐藏状态放弃任何在未来发现不相关的信息,因此,允许一个更紧凑的表述。
当前 SOTA!平台收录 Seq2Seq(LSTM) 共 2 个模型实现资源,支持的主流框架包含 PyTorch等。
项目 | SOTA!平台项目详情页 |
Seq2Seq(LSTM) | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/seq2seq-lstm |
Neural machine translation by jointly learning to align and translate
前文介绍了两种Seq2Seq的模型,虽然在第二种模型里,可以很好的提取源序列的信息,并用在每一个目标序列的输出上,但仍然无法避免另一个问题:无论是自然语言里的句子,还是轨迹数据,这些序列中的每一个点更多情况下是受周围或者局部其他点的影响,而不是整个序列。因此,在生成目标序列时,更好的办法不是在每一步加入之前源序列的全部信息,而是只关注部分信息。Bahdanau, D.等人同样也在2014年发表一篇影响力深远的论文,他们的亮点是首次在Seq2Seq模型中加入了Attention思想,目前引用量已经超过15000次。注意力机制是提供源序列的更丰富的编码的机制,从源序列编码构建可以被解码器使用的上下文向量。注意力机制使得模型在目标序列预测每个单词的过程中,学习到源序列中编码的单词如何以及以什么程度集中注意力。
图4. 模型在给定的源句(x_1, x_2, ..., x_T)中生成第t个目标词y_t
模型的Encoder与标准Seq2Seq无异。对于Decoder部分,定义条件概率:
概率是以每个目标词y_i的不同上下文向量c_i为条件的。上下文向量c_i取决于注释序列(h_1,...,h_Tx),编码器将输入的句子映射到该注释上。每个注释h_i包含整个输入序列的信息,主要集中在输入序列的第i个词的周围部分。然后,将上下文向量c_i计算为这些注释h_i的加权和:
将alignment模型a参数化为一个前馈神经网络,它与所有其他组件共同训练。
当前 SOTA!平台收录 Seq2Seq+Attention 共 4 个模型实现资源,支持的主流框架包含 PyTorch、TensorFlow 等。
项目 | SOTA!平台项目详情页 |
Seq2Seq+Attention | 前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/seq2seq-attention |