ShowMeAI研究中心

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/36
本文地址：http://www.showmeai.tech/article-detail/231
声明：版权所有，转载请联系平台与作者并注明出处

收藏ShowMeAI查看更多精彩内容

NLP介绍与词向量初步
ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

词向量、SVD分解与Word2vec
本讲内容的深度总结教程可以在这里查看。视频和课件等资料的获取方式见文末。

引言

NLP介绍与词向量初步

CS224n是顶级院校斯坦福出品的深度学习与自然语言处理方向专业课程。核心内容覆盖RNN、LSTM、CNN、transformer、bert、问答、摘要、文本生成、语言模型、阅读理解等前沿内容。

ShowMeAI将从本节开始，依托cs224n课程为主框架，逐篇为大家梳理NLP的核心重点知识原理。

本篇内容覆盖：

Introduction and Word Vectors

第1课直接切入语言和词向量，讲解了自然语言处理的基本概念，文本表征的方法和演进，包括word2vec等核心方法，词向量的应用等。

自然语言与文字
word2vec介绍
word2vec目标函数与梯度
算法优化基础
word2vec构建的词向量模式

1. 自然语言与词汇含义

1.1 人类的语言与词汇含义

咱们先来看看人类的高级语言。

人类的语言与词汇含义

人类之所以比类人猿更“聪明”，是因为我们有语言，因此是一个人机网络，其中人类语言作为网络语言。人类语言具有信息功能和社会功能。

据估计，人类语言只有大约5000年的短暂历史。语言和写作是让人类变得强大的原因之一。它使知识能够在空间上传送到世界各地，并在时间上传送。

但是，相较于如今的互联网的传播速度而言，人类语言是一种缓慢的语言。然而，只需人类语言形式的几百位信息，就可以构建整个视觉场景。这就是自然语言如此迷人的原因。

1.2 我们如何表达一个词的意思？

我们如何表达一个词的意思？

我们如何表达一个词的含义呢？有如下一些方式：

用一个词、词组等表示的概念
一个人想用语言、符号等来表达的想法
表达在作品、艺术等方面的思想

理解意义的最普遍的语言方式(linguistic way)：语言符号与语言意义（想法、事情）的相互对应

denotational semantics：语义

equation?tex=signifier%28symbol%29%20%5CLeftrightarrow%20signified%28idea%20%5Cquad%20or%20%5Cquad%20thing%29

1.3 如何在计算机里表达词的意义

要使用计算机处理文本词汇，一种处理方式是WordNet：即构建一个包含同义词集和上位词(“is a”关系)的列表的辞典。英文当中确实有这样一个 wordnet，我们在安装完NLTK工具库和下载数据包后可以使用，对应的 python 代码如下：

from nltk.corpus import wordnet as wn
poses = { 'n':'noun', 'v':'verb', 's':'adj (s)', 'a':'adj', 'r':'adv'}
for synset in wn.synsets("good"):
        print("{}: {}".format(poses[synset.pos()], ", ".join([l.name() for l in synset.lemmas()])))

from nltk.corpus import wordnet as wn
panda = wn.synset("panda.n.01")
hyper = lambda s: s.hypernyms()
list(panda.closure(hyper))

结果如下图所示：

如何在计算机里表达词的意义

1.4 WordNet的问题

WordNet的问题

WordNet大家可以视作1个专家经验总结出来的词汇表，但它存在一些问题：

$$1$$ 忽略了词汇的细微差别

例如“proficient”被列为“good”的同义词。这只在某些上下文中是正确的。

$$2$$ 缺少单词的新含义

难以持续更新！
例如：wicked、badass、nifty、wizard、genius、ninja、bombast

$$3$$ 因为是小部分专家构建的，有一定的主观性

$$4$$ 构建与调整都需要很多的人力成本

$$5$$ 无法定量计算出单词相似度

1.5 文本(词汇)的离散表征

文本(词汇)的离散表征

在传统的自然语言处理中，我们会对文本做离散表征，把词语看作离散的符号：例如hotel、conference、motel等。

一种文本的离散表示形式是把单词表征为独热向量(one-hot vectors)的形式
- 独热向量：只有一个1，其余均为0的稀疏向量

在独热向量表示中，向量维度 = 词汇量(如500,000)，以下为一些独热向量编码过后的单词向量示例：

equation?tex=motel%20%3D%20%5B0%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%201%20%5C%200%20%5C%200%20%5C%200%20%5C%200%5D

equation?tex=hotel%20%3D%20%5B0%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%201%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%20%5C%200%5D

1.6 离散表征的问题

离散表征的问题

在上述的独热向量离散表征里，所有词向量是正交的，这是一个很大的问题。对于独热向量，没有关于相似性概念，并且向量维度过大。

对于上述问题有一些解决思路：

① 使用类似WordNet的工具中的列表，获得相似度，但会因不够完整而失败
② 通过大量数据学习词向量本身相似性，获得更精确的稠密词向量编码

1.7 基于上下文的词汇表征

近年来在深度学习中比较有效的方式是基于上下文的词汇表征。它的核心想法是：一个单词的意思是由经常出现在它附近的单词给出的 “You shall know a word by the company it keeps” (J. R. Firth 1957: 11)。

这是现代统计NLP最成功的理念之一，总体思路有点物以类聚，人以群分的感觉。

当一个单词出现在文本中时，它的上下文是出现在其附近的一组单词(在一个固定大小的窗口中)
基于海量数据，使用的许多上下文来构建的表示

如图所示，banking的含义可以根据上下文的内容表征。

基于上下文的词汇表征

2.Word2vec介绍

2.1 词向量表示

词向量表示

下面我们要介绍词向量的构建方法与思想，我们希望为每个单词构建一个稠密表示的向量，使其与出现在相似上下文中的单词向量相似。

词向量(word vectors)有时被称为词嵌入(word embeddings)或词表示(word representations)。
稠密词向量是分布式表示(distributed representation)。

2.2 Word2vec原理介绍

Word2vec原理介绍

Word2vec (Mikolov et al. 2013)是一个学习词向量表征的框架。

核心思路如下：

基于海量文本语料库构建
词汇表中的每个单词都由一个向量表示（学习完成后会固定）
对应语料库文本中的每个位置，有一个中心词和一些上下文(“外部”)单词
使用和的词向量来计算概率，即给定中心词推断上下文词汇的概率（反之亦然）
不断调整词向量来最大化这个概率

下图为窗口大小 equation?tex=j%3D2 时的 equation?tex=P%5Cleft%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%5Cright%29 ，它的中心词为 equation?tex=into

Word2vec原理介绍

下图为窗口大小 equation?tex=j%3D2 时的 equation?tex=P%5Cleft%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%5Cright%29 ，它的中心词为 equation?tex=banking

Word2vec原理介绍

3.Word2vec 目标函数

3.1 Word2vec目标函数

我们来用数学表示的方式，对word2vec方法做一个定义和讲解。

3.1.1 似然函数

对于每个位置 equation?tex=t%3D1%2C%20%5Ccdots%2C%20T ，在大小为 equation?tex=m 的固定窗口内预测上下文单词，给定中心词 equation?tex=w_j ，似然函数可以表示为：

equation?tex=Likelihoood%20%3D%20L%28%5Ctheta%29%20%3D%20%5Cprod%5E%7BT%7D_%7Bt%3D1%7D%20%5Cprod_%7B-m%20%5Cleq%20j%20%5Cleq%20m%20%5Catop%20j%20%5Cneq%200%7D%20P%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%20%3B%20%5Ctheta%29

上述公式中， equation?tex=%5Ctheta 为模型包含的所有待优化权重变量

3.1.2 目标函数

Word2vec目标函数

对应上述似然函数的目标函数 equation?tex=J%28%5Ctheta%29 可以取作(平均)负对数似然：

$equation?tex=J%28%5Ctheta%29%3D-%5Cfrac%7B1%7D%7BT%7D%20%5Clog%20L%28%5Ctheta%29%3D-%5Cfrac%7B1%7D%7BT%7D%20%5Csum_%7Bt%3D1%7D%5E%7BT%7D%20%5Csum_%7B-m%20%5Cleq%20j%20%5Cleq%20m%20%5Catop%20j%20%5Cneq%200%7D%20%5Clog%20P%5Cleft%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%20%3B%20%5Ctheta%5Cright%29$

注意：

目标函数有时也被称为“代价函数”或“损失函数”
最小化目标函数最大化似然函数（预测概率/精度），两者等价

补充解读

上述目标函数中的log形式是方便将连乘转化为求和，负号是希望将极大化似然率转化为极小化损失函数的等价问题
在连乘之前使用log转化为求和非常有效，特别是做优化时

equation?tex=%5Clog%20%5Cprod_i%20x_i%20%3D%20%5Csum_i%20%5Clog%20x_i

得到目标函数后，我们希望最小化目标函数，那我们如何计算 equation?tex=P%28w_%7Bt%2Bj%7D%20%7C%20w_%7Bt%7D%20%3B%20%5Ctheta%29 ？

Word2vec目标函数

对于每个词 equation?tex=w 都会用两个向量：

当是中心词时，我们标记词向量为
当是上下文词时，我们标记词向量为

则对于一个中心词 equation?tex=c 和一个上下文词 equation?tex=o ，我们有如下概率计算方式： $equation?tex=P%28o%20%7C%20c%29%3D%5Cfrac%7B%5Cexp%20%5Cleft%28u_%7Bo%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D%7B%5Csum_%7Bw%20%5Cin%20V%7D%20%5Cexp%20%5Cleft%28u_%7Bw%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D$

Word2vec目标函数

对于上述公式，ShowMeAI 做一点补充解读：

公式中，向量和向量进行点乘
向量之间越相似，点乘结果越大，从而归一化后得到的概率值也越大
模型的训练正是为了使得具有相似上下文的单词，具有相似的向量
点积是计算相似性的一种简单方法，在注意力机制中常使用点积计算 Score，参见 ShowMeAI 文章深度学习教程 | Seq2Seq序列模型和注意力机制。

3.2 从向量视角回顾Word2vec

从向量视角回顾Word2vec

下图为计算 equation?tex=P%28w_%7Bt%2Bj%7D%20%7Cw_%7Bt%7D%29 的示例，这里把 equation?tex=P%28problems%7Cinto%3B%20u_%7Bproblems%7D%2Cv_%7Binto%7D%2C%5Ctheta%29 简写为 equation?tex=P%28u_%7Bproblems%7D%20%7C%20v_%7Binto%7D%29 ，例子中的上下文窗口大小2，即“左右2个单词+一个中心词”。

4.Word2vec prediction function

4.1 Word2vec预测函数

回到上面的概率计算，我们来观察一下

Word2vec预测函数

$equation?tex=P%28o%20%7C%20c%29%3D%5Cfrac%7B%5Cexp%20%5Cleft%28u_%7Bo%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D%7B%5Csum_%7Bw%20%5Cin%20V%7D%20%5Cexp%20%5Cleft%28u_%7Bw%7D%5E%7BT%7D%20v_%7Bc%7D%5Cright%29%7D$

取幂使任何数都为正
点积比较和的相似性，点积越大则概率越大
分母：对整个词汇表进行标准化，从而给出概率分布

这里有一个softmax的概率，softmax function equation?tex=%5Cmathbb%7BR%7D%5E%7Bn%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bn%7D 示例：

将任意值 equation?tex=x_i 映射到概率分布 equation?tex=p_i

$equation?tex=%5Coperatorname%7Bsoftmax%7D%5Cleft%28x_%7Bi%7D%5Cright%29%3D%5Cfrac%7B%5Cexp%20%5Cleft%28x_%7Bi%7D%5Cright%29%7D%7B%5Csum_%7Bj%3D1%7D%5E%7Bn%7D%20%5Cexp%20%5Cleft%28x_%7Bj%7D%5Cright%29%7D%3Dp_%7Bi%7D$

其中对于名称中soft和max的解释如下（softmax在深度学习中经常使用到）：

max：因为放大了最大的概率
soft：因为仍然为较小的赋予了一定概率

4.2 word2vec中的梯度下降训练细节推导

下面是对于word2vec的参数更新迭代，应用梯度下降法的一些推导细节，ShowMeAI写在这里做一点补充。

首先我们随机初始化 equation?tex=u_%7Bw%7D%5Cin%5Cmathbb%7BR%7D%5Ed 和 equation?tex=v_%7Bw%7D%5Cin%5Cmathbb%7BR%7D%5Ed ，而后使用梯度下降法进行更新

$equation?tex=%5Cbegin%7Baligned%7D%20%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Clog%20P%28o%7Cc%29%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Clog%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Cleft%28%5Clog%20%5Cexp%28u_o%5ETv_c%29-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Cleft%28u_o%5ETv_c-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3Du_o-%5Cfrac%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29u_w%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%20%5Cend%7Baligned%7D$

偏导数可以移进求和中，对应上方公式的最后两行的推导

$equation?tex=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7D%5Csum_iy_i%20%3D%20%5Csum_i%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20x%7Dy_i$

我们可以对上述结果重新排列如下，第一项是真正的上下文单词，第二项是预测的上下文单词。使用梯度下降法，模型的预测上下文将逐步接近真正的上下文。

$equation?tex=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20v_c%7D%5Clog%20P%28o%7Cc%29%20%26%3Du_o-%5Cfrac%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29u_w%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3Du_o-%5Csum_%7Bw%5Cin%20V%7D%5Cfrac%7B%5Cexp%28u_w%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7Du_w%5C%5C%20%26%3Du_o-%5Csum_%7Bw%5Cin%20V%7DP%28w%7Cc%29u_w%20%5Cend%7Baligned%7D$

再对 equation?tex=u_o 进行偏微分计算，注意这里的是 equation?tex=u_%7Bw%3Do%7D 的简写，故可知

$equation?tex=%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Csum_%7Bw%20%5Cin%20V%20%7D%20u_w%5ET%20v_c%20%3D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%20u_o%5ET%20v_c%20%3D%20%5Cfrac%7B%5Cpartial%20u_o%7D%7B%5Cpartial%20u_o%7Dv_c%20%2B%20%5Cfrac%7B%5Cpartial%20v_c%7D%7B%5Cpartial%20u_o%7Du_o%3D%20v_c$ $equation?tex=%5Cbegin%7Baligned%7D%20%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Clog%20P%28o%7Cc%29%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Clog%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Cleft%28%5Clog%20%5Cexp%28u_o%5ETv_c%29-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3D%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Cleft%28u_o%5ETv_c-%5Clog%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5Cright%29%5C%5C%20%26%3Dv_c-%5Cfrac%7B%5Csum%5Cfrac%7B%5Cpartial%7D%7B%5Cpartial%20u_o%7D%5Cexp%28u_w%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3Dv_c%20-%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29v_c%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7D%5C%5C%20%26%3Dv_c%20-%20%5Cfrac%7B%5Cexp%28u_o%5ETv_c%29%7D%7B%5Csum_%7Bw%5Cin%20V%7D%5Cexp%28u_w%5ETv_c%29%7Dv_c%5C%5C%20%26%3Dv_c%20-%20P%28o%7Cc%29v_c%5C%5C%20%26%3D%281-P%28o%7Cc%29%29v_c%20%5Cend%7Baligned%7D$

可以理解，当 equation?tex=P%28o%7Cc%29%20%5Cto%201 ，即通过中心词 equation?tex=c 我们可以正确预测上下文词 equation?tex=o ，此时我们不需要调整 equation?tex=u_o ，反之，则相应调整。关于此处的微积分知识，可以查阅ShowMeAI的教程图解AI数学基础文章图解AI数学基础 | 微积分与最优化。

word2vec中的梯度下降训练细节推导

训练模型的过程，实际上是我们在调整参数最小化损失函数。
如下是一个包含2个参数的凸函数，我们绘制了目标函数的等高线。

斯坦福NLP课程 | 第1讲 - NLP介绍与词向量初步

引言

本篇内容覆盖：

1. 自然语言与词汇含义

1.1 人类的语言与词汇含义

1.2 我们如何表达一个词的意思？

1.3 如何在计算机里表达词的意义

1.4 WordNet的问题

1.5 文本(词汇)的离散表征

1.6 离散表征的问题

1.7 基于上下文的词汇表征

2.Word2vec介绍

2.1 词向量表示

2.2 Word2vec原理介绍

3.Word2vec 目标函数

3.1 Word2vec目标函数

3.1.1 似然函数

3.1.2 目标函数

3.2 从向量视角回顾Word2vec

4.Word2vec prediction function

4.1 Word2vec预测函数

4.2 word2vec中的梯度下降训练细节推导

4.3 训练模型：计算所有向量梯度

5.视频教程

6.参考资料

ShowMeAI系列教程推荐

NLP系列教程文章

斯坦福 CS224n 课程带学详解

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

斯坦福NLP课程 | 第1讲 - NLP介绍与词向量初步

引言

本篇内容覆盖：

1. 自然语言与词汇含义

1.1 人类的语言与词汇含义

1.2 我们如何表达一个词的意思？

1.3 如何在计算机里表达词的意义

1.4 WordNet的问题

1.5 文本(词汇)的离散表征

1.6 离散表征的问题

1.7 基于上下文的词汇表征

2.Word2vec介绍

2.1 词向量表示

2.2 Word2vec原理介绍

3.Word2vec 目标函数

3.1 Word2vec目标函数

3.1.1 似然函数

3.1.2 目标函数

3.2 从向量视角回顾Word2vec

4.Word2vec prediction function

4.1 Word2vec预测函数

4.2 word2vec中的梯度下降训练细节推导

4.3 训练模型：计算所有向量梯度

5.视频教程

6.参考资料

ShowMeAI系列教程推荐

NLP系列教程文章

斯坦福 CS224n 课程带学详解

热门文章

最新文章

相关课程

相关电子书

相关实验场景