用BERT构建最先进语言模型-阿里云开发者社区

用BERT构建最先进语言模型

2019-07-18 2028

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： 由于BERT高度实用的方法和具有更高效的性能，它被用于各种NLP任务，在语言模型中取得了最先进的成果。本文将通过一些重要的背景细节对BERT的体系结构进行广泛的说明。我们还将通过实际操作，使用PyTorch库对讨论关于如何使用该模型获得最先进成果进行测试。

2018年，在引入了迁移学习之后，自然语言处理（NLP，Natural Language Processing）领域发生了革命性的变化。BERT（Bidirectional Encoder Representations from Transformers）是谷歌人工智能团队在2018年推出的一个典型的迁移学习案例，它在各种NLP任务中展现出的最先进成果震撼了整个NLP领域。

由于BERT高度实用的方法和具有更高效的性能，它被用于各种NLP任务，在语言模型中取得了最先进的成果。本文将通过一些重要的背景细节对BERT的体系结构进行广泛的说明。我们还将通过实际操作，使用PyTorch库对讨论关于如何使用该模型获得最先进成果进行测试。

有一种非常有效的方法可以进行预训练神经网络，并创建一个预训练的语言模型，这被称为语言建模（LM）。

一些关于BERT的说明:
• 与那些使用之前的标记（token）来预测下一个标记的传统语言模型不同，BERT同时使用下一个标记和之前的标记进行预测；
• BERT还专门为下一个句子进行预测，这使得它成为问答类或句子比较类预测任务的一个合适选择；
• BERT使用了编码语句的编码器和解码器的Transformer架构，参数的变化很大，即使在小数据集上，其性能也非常显著；

BERT迁移学习

在深入研究BERT之前，让我们首先了解一下BERT使用的迁移学习的概念。

传统的NLP模型仅限于单词嵌入，如GloVe或word2vec这两个模型，其中每个单词都被链接到了一个向量，该向量用于表示它的某些含义特征。之后，这些单词嵌入在一个巨大的未标记过的语料库上进行训练，然后使用该语料库对已标记的数据进行训练，为不同的任务如文本分类和情感分析，创建特定的模型。这些模型从大数据集中获得语言方面的知识。在这种情况下，单词嵌入在几乎所有的NLP任务中都很有用。但所有这些都是有成本的，我们将在下文中进一步讨论。

Word2vec或GloVe模型通常在一些简单语言建模应用上进行训练，这使得很难获取所有的含义，尤其是当上下文发生变化的时候。在像LSTM这样非常复杂的神经网络中，基于Word2vec建立的语言模型并没有获取到句子的细微差别和含义。这就造成了使用Word2vec或GloVe模型的单词嵌入对于语言建模过程没有什么效果。

为了证明这一点，让我们以两个句子为例进行说明。第一句话是“The cottage needs a good cleaning”，第二句话是“He clean forgot about dropping the letters in the post box”。在这两个句子中，clean有着不同的含义，在第一个例子中，clean是一个名词，而在第二个例子中，clean是一个副词。

基于单词嵌入建立的模型通常不考虑任何上下文的因素。以前，每个单词都被传统的单词嵌入方法分配一个向量，这就迫使模型必须得考虑单词的含义。

这些缺点使得像LSTM这样的深度神经网络解决了使用迁移学习的问题，与单词嵌入不同的是，将每个单词映射到了一个向量上，它们训练了一个深度神经网络，该网络将一个向量映射到完全基于语句里的每个单词上。

核心思想

语言模型的基本任务是在空白处预测单词，或者预测一个单词在特定上下文中出现的概率。我们再看一个例子:

“FC Barcelona is a _ club”

在这里，语言模型可以以80%的概率将空白处的单词预测为“足球”，并且20%的概率可以预测为板球。

通常来说，一个语言模型是从“左到右”进行训练的，因此设计用来预测下一个单词。请看下面的例子，

“Tallest mountain is”

这里，用一个通用语言模型来预测下一个单词。当我们想要生成一些新的句子时，这是一个定义好的方法，即一个语言模型可以预测下一个单词。增加了句子之后，继续预测，并且增加更多的句子。但这是训练语言模型的唯一方法吗？更重要的是，这是使用深度学习进行语言建模最有效的方法吗？

BERT驳斥了这种语言模型的原始创造性，即它们必须被设计成从左到右的方式进行预测。这试图说明了，如果我们不想生成新的句子，就不需要从左到右的方式来训练语言模型。

这就是BERT的关键之处，它的作用是随机地屏蔽特定上下文中的单词，然后来预测它们。

使用迁移学习的典型模型的体系结构

这种方法迫使模型学习使用整个句子中的相关信息，并找到有效使用这种方法的屏蔽词。

向前, 向后和屏蔽的LM（Masked Language Model）

有一些常用的方法，如语言模型（ELMo）和ULMFiT嵌入，它们使用并集成了著名的Bi-LSTM模型。让我们先了解一下什么是Bi-LSTM，并且它有哪些不完美的地方，然后再了解一下如何使用BERT解决问题。双向LSTM是通过从左到右训练的方式来预测下一个单词，而从右到左训练的方式来预测前一个单词，这就意味着有两个LSTM分别用于向前和向后预测。但它们都没有同时观察这两种方式。在BERT中，这个模型是利用句子中所有位置的单词来进行学习的，就是指整个句子。此外，谷歌还使用了Transformer，这使得模型会更加准确。从本质上来讲，这从所有其它基于Bi-LSTM的模型中区分出了BERT。

体系结构

BERT在其体系结构中加入了强大的Transformer，它在输入语句上使用了attention机制。Transformer由许多attention块组成，其中每个块使用线性层转换输入序列，并应用了attention机制。它基本上汇聚了映射seq2seq的层。

在这个情况中需要注意的一点是，BERT使用了WordPiece tokenizer，这大大减少了单词量。例如，running → run + ##ing。

BERT体系结构

Transformer有一个缺点，就是它们不像RNN（Recurrent Neural Network，循环神经网络）那样确认输入单词的顺序。比如说，如果前面的单词和最后的单词相同，那么它们将被完全视为相似的标记。BERT用位置嵌入法解决了这个问题，它能告知语句中单词的位置。在给向前网络提供输入标记之前，这些标记会被输入到标记嵌入当中。

输入模式总结

对于诸如自然语言推理和问答之类的任务，BERT训练成对的句子，这有助于为区分两个句子开发一个唯一的嵌入，这种嵌入被称为片段嵌入（segment embedding）。

语言模型训练

对于BERT的屏蔽语言模型（masked LM）训练，需要遵循几个步骤。

训练一个屏蔽语言模型的一种非常传统的方法是，用[MASK]标记随机替换某些单词。BERT执行过这样的训练，比如，对于每一个例子，BERT随机地屏蔽了15%的标记。

但是这种方法有一个缺陷，即只有模型存在屏蔽标记时才进行预测。在简单的单词中，如果在输入标记中不做屏蔽，那么模型可能就会忽略过去了。我们对模型的期望只是给出正确的预测，而不管我们传递哪些输入的标记。因此，让我们了解一下谷歌是如何解决这个问题的。

从句子中随机地抽取一组单词，然后再用另外一些随机的单词来代替。这一步必须非常地谨慎，因为在替换这些原始单词的同时，添加随机单词会增加噪声级别，也会导致较差的结果。因此，BERT只交换了10%到15%的被选择用于屏蔽的标记，大约占整个标记数量的1%，另外的10%既没有被交换也没有被屏蔽，剩下的80%则被[MASK]标记屏蔽了。

用BERT预测下一个句子

为了在诸如问答和自然语言推理这样的任务中表现出色，BERT使用了下一句预测的方法。

下一个输入预测的例子

当用两个句子作为输入时，BERT使用了一个[SEP] 标记来分隔句子中的单词。在语言模型的预训练期间，给BERT输入的两个句子中，第二个句子先于第一个句子的时间占50%，而一个完全随机句子出现的时间占50%。此时，模型的任务是预测第二个句子是否真的是下一句话。

微调语言模型

BERT编码器给出了一系列的隐藏状态。比如说，对于一些分类任务，我们只需要一个预测向量，所以序列需要被截取后放入一个向量。要做到这一点，这里有两种方法。第一种方法是通过max or mean pooling，第二种方法是借助attention的功能。然而，最简单的方法是采用第一个标记对应的隐藏状态。

BERT的工作

问题是，这个池机制是如何工作的呢？

BERT还有一个特殊的标记，名为Classification，它表示为[CLS]。模型需要在句首考虑这个[CLS] 标记。

1.模型的大小。BERT_large是同类模型中最大的一个，它有3.45亿个参数，与BERT_base相比，BERT_large在小数据集上表现出卓越的性能，而Bert_Base则有1.1亿个参数；

2.更多的训练步骤等于更高的准确性（如果保证有足够多的训练数据）。在MNLI task上可以进行简单的证明，相同批量的训练中，100万级别的训练，BERT的准确度要比在50万级别提高了1%；

BERT的Masked LM要比自左向右的LM训练方法收敛得慢一些。这是因为每批预测的单词只有15%。但Masked LM训练在经过了几次训练前的步骤后仍然战胜了从左到右的LM训练；

来源: BERT [Devlin等, 2018]

结论

因此，我们看到了BERT是如何在NLP领域获得了重大的突破，以及它如何在不同的LM任务上取得了最先进的成果。
仅仅因为masked LM方法，它与其它的迁移学习方法如ELMo或者ULMFiT相比，带来了巨大的差异，并且很好地继承了它们的性能。
所以，在总结中，我尝试着解释BERT背后的核心思想，并且为了更深入地探索，你必须尝试着读一下BERT的那些令人惊叹的论文。至于源代码，你可以在Git存储库里查找。

本文由阿里云开发者社区组织翻译。
文章原标题《Building State-of-the-Art Language Models with BERT》
作者：Ankit Singh
译者：Mags
文章为简译，更为详细的内容，请查看原文

用BERT构建最先进语言模型

BERT迁移学习

核心思想

体系结构

BERT体系结构

语言模型训练

用BERT预测下一个句子

微调语言模型

结论

云智能前沿

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

用BERT构建最先进语言模型

BERT迁移学习

核心思想

体系结构

BERT体系结构

语言模型训练

用BERT预测下一个句子

微调语言模型

结论

云智能前沿

热门文章

最新文章

相关课程

相关电子书

相关实验场景