GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（1）-阿里云开发者社区

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（1）

2023-05-19 792 发布于浙江

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

简介： GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型

机器之心专栏

本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 2 期进行连载，共介绍 10 个在文本生成任务上曾取得 SOTA 的经典模型。

第 1 期：Seq2Seq（RNN）、Seq2Seq（LSTM）、Seq2Seq+Attention、SeqGAN、Transformer
第 2 期：GPT、BERT、XLM、GPT-2、BART

您正在阅读的是其中的第 2 期。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第 1 期回顾：Seq2Seq、SeqGAN、Transformer…你都掌握了吗？一文总结文本生成必备经典模型（一）

本期收录模型速览

模型	SOTA！模型资源站收录情况	模型来源论文
GPT	https://sota.jiqizhixin.com/project/gpt 收录实现数量：2 支持框架：TensorFlow、PyTorch	Improving language understanding by generative pre-training
BERT	https://sota.jiqizhixin.com/project/bert-22 收录实现数量：6 支持框架：TensorFlow	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
XLM	https://sota.jiqizhixin.com/project/xlm 收录实现数量：4 支持框架：PyTorch	Cross-lingual Language Model Pretraining
GPT-2	https://sota.jiqizhixin.com/project/gpt-2 收录实现数量：5 支持框架：PyTorch、MindSpore、TensorFlow	Language Models are Unsupervised Multitask Learners
BART	https://sota.jiqizhixin.com/project/bart-8 收录实现数量：1 支持框架：PyTorch	BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

文本生成（Neural Language Generation，NLG）是指从非语言的表示生成人类可以理解的文本。根据非语言表示的不同划分，文本生成包括“文本→文本”、“数据→文本”、“图像→文本”。随着深度学习、知识图谱等前沿技术的发展，基于图像生成文本描述的实验成果在不断被刷新。基于GAN的图像文本生成技术已经获得了非常好的效果，不仅能够根据图片生成非常好的描述，还能根据文本输出生成对应的图片。由数据生成文本，目前主要用于新闻撰写领域，中文和英文都有很大的进展。

从应用任务的领域细分，机器翻译、对话系统（目标导向、开放式）、故事生成、诗歌生成、文本摘要等等都属于文本生成的范畴。与其他自然语言处理技术类似，文本生成也主要包括传统的文本生成方法（基于规则、基于统计）和基于神经网络的文本生成方法两类。

本文回顾文本生成领域必备的TOP模型，聚焦于“文本→文本”。所选出进行介绍的模型在提出之时，其目的可能是解决机器翻译、文本摘要、对话系统等不同的任务，因其经典性以及对文本生成整个领域中不同应用任务的巨大推动，我们都放入本文介绍。而针对具体的细分应用领域，例如机器翻译任务必备的TOP模型、文本摘要任务必备的TOP模型等等，我们将在具体的专题文章中详细介绍其中经典模型的改进历程。

Improving language understanding by generative pre-training

GPT，也称为GPT-1，是OpenAI在论文《Improving Language Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。该模型的核心思想：通过二段式的训练，第一个阶段是利用语言模型进行预训练（无监督形式），第二阶段通过 Fine-tuning 的模式解决下游任务（监督模式下）。GPT-1可以很好地完成若干下游任务，包括分类、蕴含、相似度、多选等。在多个下游任务中，微调后的GPT-1系列模型的性能均超过了当时针对特定任务训练的SOTA模型。GPT全称Generative Pre-Training，是一种半监督学习方法，具体方法是在针对有标签数据训练Fine-tune之前，用无标签数据预训练模型Pretrain，并保证两种训练具有同样的网络结构。

GPT 采用两阶段过程，第一个阶段是利用语言模型进行预训练（无监督形式），第二阶段通过 Fine-tuning 的模式解决下游任务（监督模式下）。模型的结构如图1。

图1. （左）本工作中使用的transformer结构和训练目标。(右）在不同任务上进行微调的输入转换。将所有的结构化输入转换为标记序列，由预训练模型处理，然后是线性+softmax层

GPT-1由12层Transformer Decoder的变体组成，称其为变体，是因为与原始的Transformer Decoder相比，GPT-1所用的结构删除了Encoder-Decoder Attention层，只保留了Masked Multi-Head Attention 层和Feed Forward层，并扩大了网络的规模。将层数扩展到12层，GPT-1还将Attention 的维数扩大到768（原来为512），将Attention的头数增加到12层（原来为8层），将Feed Forward层的隐层维数增加到3072（原来为2048），总参数达到1.5亿。GPT-1还优化了学习率预热算法，使用更大的BPE码表，将ReLU改为对梯度更新更友好的高斯误差线性单元GeLU，将正余弦构造的位置编码改为了带学习的位置编码。

非监督预训练
在预训练部分，用u表示每一个token(词)，当设置窗口长度为k，预测句中的第i个词时，则使用第i个词之前的k个词，同时也根据超参数Θ，来预测第i个词最可能是什么。简言之，用前面的词预测后面的词。

具体方法是代入Transformer模型，下式中的模型由l组（block）隐藏层组成，最初输入隐藏层的数据是词编码U乘词嵌入参数We加上位置参数Wp；后面经过l个层处理：

监督微调
接下来是要对前一个阶段训练出来的模型参数进行微调，以适应当前的监督型任务。假设有带标签的数据集C，数据结构为(x_1,x_2,…,x_m,y)，然后输入(x_1,x_2,…,x_m)，经过预训练模型在输入上的迭代之后，获得输出向量h_m^l，然后经过线性层和softmax得到预测标签：

W_y 表示预测输出时的参数，微调时候需要最大化以下函数：

GPT 在微调的时候也考虑预训练的损失函数，所以最终需要优化的函数为：

当前 SOTA！平台收录 GPT 共 2 个模型实现资源，支持的主流框架包含 TensorFlow、PyTorch 等。

项目	SOTA！平台项目详情页
GPT	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/gpt

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT（Bidirectional Encoder Representations from Transformers）自从谷歌提出就一直大热，很多人认为Bert是整个NLP研究历程中里程碑似的节点。BERT的灵感来源是“Attention is all your need”中提到的Transformer模型。Bert用transformer的双向编码器表示。BERT通过在所有层的上下文联合调节来预训练深度双向表示。因此，预训练的bert可以添加一个额外的输出层进行微调，可以在广泛的任务上产生目前最好的效果。例如问答和语言推理，不需要大量特定任务的结构的修改。此外，bert受到完形填空的启发，通过 “masked language model” (MLM)预训练目标来缓解前面提到的单向性约束。masked语言模型从输入中随机掩码一些符号，并且目标是仅仅基于上下文来预测掩码词的原始词汇id。不同于left-to-right模型的预训练，MLM目标使得表示能够融合上下文，从而预训练一个深层的双向transformer。除了掩码语言模型，BERT还使用“下一句话预测”任务，联合预训练文本对表示。

BERT的网络结构使用了双向Transformer的堆叠，Encoder和Decoder分别12层。BERT加入了Masked Language Model(MLM) 和 Next Sentences Prediction(NSP），使得模型能够在无监督的场景下学习到句子间特征和语义特征。在无监督学习场景训练，能最大化的使用训练语料。而Pre-train和Fine-tune能够方便地将已训练好的BERT模型迁移到不同的应用场景，在工业界大有益处。

下图为Bert的输入图示。由图示可知，Bert的输入包括三个部分：词嵌入张量（Token embeddings）、语句分块张量（ segmentation embeddings）、位置编码张量（position embeddings），最终的embedding向量是将上述的3个向量直接做加和的结果。

图2. BERT输入表示。输入嵌入是标记嵌入、分割嵌入和位置嵌入的总和。嵌入和位置嵌入的总和

接下来，MLM和 NSP是Bert的另外两个亮点：

Bert中引入了一个带mask的语言模型训练（Masked LM）。为了训练深度双向的表示，随机mask一定百分比的输入token，然后去预测那些掩码处理掉的token。作者将这个过程称为是“masked LM”（MLM），它在文献中通常被称为完形填空任务。在这种情况下，对应于mask token的最终的隐藏向量通过词汇表输出softmax，如标准的LM。具体而言，在原始训练文本中，随机抽取15%的token作为即将参与mask的对象。在选中的token中，数据生成器并不是把他们全部变成[MASK]，具体变化方法包括三类：一是，在80%的概率下，用[MASK]标记替换token，比如my dog is hairy → my dog is [MASK]；二是，在10%的概率下，用随机单词替换token，比如my dog is hairy → my dog is apple；三是，在10%的概率下，保持token不变，比如my dog is hairy → my dog is hairy。

Bert还引入了一个下一句话预测任务（Next Sentence Prediction ）。许多重要的下游任务，例如问答（QA）和自然语言推理，都是基于理解两个句子之间的关系，而不是由语言建模直接捕获的。为了训练理解句子关系的模型，作者预训练了二进制的下一句预测任务，该任务可以从任何单语语料库中轻松的生成。具体而言，所有的参与任务训练的语句都被选中参加，其中：50%的B是原始本中实际跟随A的下句话；50%的B是原始本中随机抽取的一句话。在该任务中，Bert模型可以在测试集上取得97-98%的准确率。

最后，fine-tuning是Bert的另一个亮点，只需要将特定任务的输入输出插入到Bert中，利用Transformer强大的注意力机制就可以模拟很多下游任务，从而具有极佳的迁移特性。

当前 SOTA！平台收录 BERT 共 6 个模型实现资源，支持的主流框架包含 TensorFlow 等。

项目	SOTA！平台项目详情页
BERT	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/bert-22

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（1）

Improving language understanding by generative pre-training

ModelScope模型即服务

热门文章

最新文章

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（1）

Improving language understanding by generative pre-training

ModelScope模型即服务

热门文章

最新文章

相关电子书

相关实验场景