迁移学习让AI更好地理解上下文：Salesforce新论文

2018-01-10 1458

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

文档翻译，文档翻译 1千页

文本翻译，文本翻译 100万字符

NLP 自学习平台，3个模型定制额度 1个月

简介：

本文来自AI新媒体量子位（QbitAI）

让神经网络理解每个词的意思很容易，但上下文、词语之间的关系，依然是自然语言处理(NLP)中的难题。

Salesforce的一群NLP研究者发现，搞图像识别的同行们有个不错的办法，值得一试。

在图像识别领域，把ImageNet上预训练的CNN拿来，用在其他图像识别模型中，已经成为一种惯例。这种把训练好的模型参数迁移到新模型的方法，也就是这两年大热的迁移学习。

理解上下文，就是一个非常适合迁移学习的问题。

Learned in Translation

我们所能想到的大部分NLP任务，都有“理解上下文”的需求。

机器翻译模型需要知道英语句子中的这些词是怎样组合在一起的，才能正确地把它翻译成其他语言；自动文本摘要模型需要了解上下文，才能知道哪些词是最重要的；问答模型需要知道问题中的词如何与文档中的词关联。

既然大家都需要，那能不能选一个任务训练一个“理解上下文”的组件，然后用到其他任务中呢？

△ 用机器学习预训练一个编码器，得到的上下文向量(CoVe)能提升其他NLP模型的表现

Saleforce的新论文Learned in Translation: Contextualized Word Vectors讲的就是这个问题。

Bryan McCann等研究员先通过英语-德语翻译任务，训练一个神经网络模型在上上文中理解词语，得到名为“上下文向量(context vectors, CoVe)”的输出。

然后，他们把CoVe用到了语义情感分析、问题分类、文本蕴含、问答等多种NLP任务上，这些模型的性能都得到了提升。

词向量

如今大部分NLP深度学习模型，都靠词向量(word vectors)来表示词义。在为特定任务训练模型之前，词向量可能是随机的数字，也可能用用word2vec、GloVe、FastText等方法进行了初始化。

word2vec和GloVe生成的词向量，与在自然语言中经常与这个词共现的词相关，其中word2vec模型会根据输入词来预测周围的相关词语，而GloVe在此基础上，还会统计两个词共同出现的频率。

在一个NLP任务中使用word2vec和GloVe训练的词向量，比随机初始化的词向量效果要好，但是还有改进的空间：

模型需要知道怎样使用这些词向量，也就是如何把它们置于上下文之中。

理解上下文

要在上下文中理解词语，通常会用到循环神经网络(RNN)。RNN非常适合处理词向量序列，本文作者为了更好地处理长序列，使用了一种特殊的RNN结构：长短时记忆网络(LSTM)。

这个LSTM是一个编码器，它以词向量作为输入，输出隐藏向量。研究员们尝试预训练这个编码器，让它输出在多种NLP任务上通用的隐藏向量。

用什么任务来进行预训练呢？他们选择了机器翻译。

与其他NLP任务相比，机器翻译有着更大规模的数据集，也更适合用来训练通用隐藏向量：它比文本分类等任务更需要软件理解语言的含义。

预训练完成后，研究员们得到一个LSTM，称为MT-LSTM，可以用来为新句子输出隐藏向量。他们称这些隐藏向量为CoVe，可以作为其他NLP模型的输入。

迁移效果

Salesforce研究员探索了在文本分类和问答模型上使用CoVe的效果。

他们使用了下列数据集：

情感分类
SST-2

https://nlp.stanford.edu/sentiment/treebank.html

SST-5

https://nlp.stanford.edu/sentiment/treebank.html

IMDb

http://ai.stanford.edu/~amaas/data/sentiment/

问题分类
TREC-6

http://cogcomp.cs.illinois.edu/Data/QA/QC/

TREC-50

http://cogcomp.cs.illinois.edu/Data/QA/QC/

蕴含分类
SNLI
https://nlp.stanford.edu/projects/snli/
问答
SQuAD
https://rajpurkar.github.io/SQuAD-explorer/

在每一类任务上，他们都对不同方法做了比较，也就是使用以下类型的输入序列：随机初始化词向量、用GloVe初始化的词向量、经GloVe+CoVe初始化的词向量。

GloVe和CoVe一起用时，需要用预训练的MT-LSTM来处理GloVe的输出序列，得到CoVe序列，然后将其中的每个向量加在GloVe序列中相应的向量之上。

结果显示，GloVe和CoVe一起用效果是最好的：

在这些任务上，都是机器学习训练集越大，使用CoVe的效果就越好：

结论

简单概括起来，这项研究就是说，让AI学一学翻译，能帮它更好地理解语言，在分类、问答等等其他NLP任务上都会有更好的表现。

迁移学习让AI更好地理解上下文：Salesforce新论文

Learned in Translation

△ 用机器学习预训练一个编码器，得到的上下文向量(CoVe)能提升其他NLP模型的表现

词向量

理解上下文

迁移效果

结论

相关链接

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

迁移学习让AI更好地理解上下文：Salesforce新论文

Learned in Translation

△ 用机器学习预训练一个编码器，得到的上下文向量(CoVe)能提升其他NLP模型的表现

词向量

理解上下文

迁移效果

结论

相关链接

量子位

热门文章

最新文章

相关课程

相关电子书

相关实验场景