word2vec -- 负采样 -- skip-gram

简介: 我以前写过一篇关于word2vec的文章,说实话,写的一坨,我决定以后写博客认认真真的去写。我的博客来自于网上各位前辈的资料的整理,这位这位和这位翻译的让我对word2vec有了深入的理解。

我以前写过一篇关于word2vec的文章,说实话,写的一坨,我决定以后写博客认认真真的去写。
我的博客来自于网上各位前辈的资料的整理,这位这位和这位翻译的让我对word2vec有了深入的理解。word2vec有两种模型,一个是skip-gram,一个是cbow。这两个模型应该是在一起讲的。cbow是输入词向量求平均,二skip-gram输入只有一个,不要求平均。首先说一点,cbow和skip-gram的目标函数,下图是cbow的,skip-gram反过来而已


词向量基础

词向量很早以前就有了。最早的词向量成为one-hot representation,它使用的词向量维度大小为整个词汇表的大小,对于词汇表中每个具体的词,对应位置置为1,其余位置为0。例如,我们得到一个为2000大小的词汇表,“dog”的词序为3,那么它的词向量表示为(0,0,1,0,...,0)。是不是感觉这样很蠢,只是将改词所在的位置表示出来,而其余位置都没有啥意义,占用存储空间。如果上千万大小的词汇表,一个词就需要上千万的位置,将会导致维度灾难。
于是,人们搞出一个Distributed representation,它的思路是通过训练,将每个词都映射到一个较短的词向量上,所有的词向量就构成了向量空间,进而可以用统计学的方法研究词和词之间的关系。比如谷歌用google news训练的词向量,维度为300,一般维度自己指定。



上图仅仅展示了一个词汇表中词向量的一部分,可以看出“Man”这个词和“Woman”这个词在“Gender”所占的比重还是很大的,在其他属性占的比重小。当然实际上,我们并不能对词向量的每一个维度做很好的解释。
使用t-SNE算法对词向量进行非线性降维,可得到下面映射结果:



可以看到同一类的词,基本上聚集在了一起。例如,给定对应关系“man”对“woman”,要求机器类比出“King”对应的词汇,可发现词向量存在数学关系“Man - Woman = King - Queen”

第一部分

模型

在word2vec模型中,主要有Skip-Gram和CBOW两种模型。CBOW是给定上下文,来预测input word,而Skip-Gram是给定input word来预测上下文。


我暂时文章没怎么看懂,就看懂了最后一篇翻译的,所以暂时只写skip-gram。
Skip-Gram实际上分为了两个部分, 第一部分为建立模型,第二部分为通过模型获取嵌入词向量。word2vec的整个建模过程实际上与自编码器(auto-encoder)相似,即先基于训练数据构建一个神经网络,当这个模型训练号以后,我们并不会用这个训练好的模型处理新的任务,我们需要的是这个模型 通过训练所学到的参数,如隐层的权值矩阵-----这些权重在word2vec中实际上就是我们试图学习的“word vectors(词向量)”。基于训练数据建模的过程,我们给它取一个名字叫“Fake Task”,意味着建模不是最终目的。

上面提到的这种方法实际上会在无监督特征学习(unsupervised feature learning)中见到,最常见的是自编码器(auto-enconder):通过在隐层将输入进行编码压缩,继而在输出层将数据解码回复到初始状态,训练完成后,我们将会去掉输出层,只保留隐层。(ps:让我想起了生成对抗网络)

The Fake Task

“fake task”就是构建网络,但只要训练数据得到的隐层。它的完整过程如下:
假如我们有一个句子“The fox jumps over the lazy dog”。

  • 首先我们选取句子中的一个词作为输入词(实际训练过程中,是依次将句子中的每个词作为输入词构建训练对的),例如选取“fox”作为input word;
  • 有了input word后,我们再定义一个叫skip_window的参数,它代表我们从当前input word的一侧选取词的数量。如果设置skip_window = 2,那么我们最终获得窗口中的词(包括input word在内)就是['The', 'fox', 'jumps', 'over']。那么整个窗口大小span = 2\times2 = 4。另外一个参数叫num_skips,它代表我们选取多少个不同的词作为我们的output word,当skip_window = 2,num_skips = 2时,我们将会得到两组(input wordoutput word)形式的训练数据,即('fox', 'jumps'),('fox', 'the')
  • 神经网络基于这些训练数据将会输出一个概率分布,这个概率代表着我们词典中的每个词是output word的可能性。例如,上面我们得到两组数据。我们先用一组数据('fox', 'jumps')来训练神经网络,那么模型通过前面学习这个训练样本,会告诉我们词汇表中其他单词的概率大小和“jumps”的概率大小。

模型的输出概率代表着我们的词典中每个词有多大可能跟input word同时出现。例如,我们向神经网络模型中输入一个单词“Soviet”,那么最终模型的输出概率中,像“Union”,“Russia”这些相关词的概率远远高于“dog”,“love”这些非相关词的概率。
我们将通过给神经网络输入文本中成对的单词来训练它完成上面所说的概率计算。下面的图给出了一个完整的例子。我们选定句子“The quick brown fox jumps over lazy dog”,设定窗口大小为2(skip_window = 2)。下图中,蓝色代表input_word,方框内代表位于窗口内的单词。

模型细节

首先,神经网络只能接受数值输入,所以我们必须将单词进行one-hot编码,上面我们介绍的词向量发挥作用了。假设我们在训练数据中只能取出10000个不重复的单词作为词汇表,那么我们对每个单词编码都是1 \times10000的向量。在上面的例子中,如果“** The dog barked at the mailman**”,按照简单的情况,每个单词在词汇表的位置为1,2,3,4,5,6,那么这6个单词将会被编码成 6\times1000维度的向量,为了表示方便,我只写出前2个
\begin{bmatrix} {1}&{0}&{\cdots}&{0}\\ {0}&{1}&{\cdots}&{0}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {0}&{0}&{\cdots}&{0}\\ \end{bmatrix}
模型的输入是10000为的向量,那么输出也是10000维(词汇表的大小)向量,它包含了10000个概率,每一个概率代表着当前词是输入样本中output word的概率大小。如下图,神经网络架构:


隐层不使用任何激活函数,但是输出层用来softmax

第二部分

上面结尾我们说输出层用softmax,但是要知道,如果真的用softmax来算,计算量大的惊人。所以可以用这三个方法来减少计算量:

  • 将常见的单词组合(word pairs)或者词组作为单个“words”来使用。
  • 对高频词进行抽样来减少训练样本的个数
  • 最后最重要的一点,就是“nagative sampling”方法,这样每个训练样本只会更新一小部分模型权重,从而降低计算负担。

其他的我不想讲,原作者博客中有,我想讲讲nagative sampling(负采样)。不同于原本每个训练样本更新所有的权重,负采样每次让一个训练样本仅仅更新一部分的权重,这样就好降低梯度下降过程中的计算量。
当我们用训练样本(input word:"fox", output word:"quick")来训练我们的神经网络时,“fox”和“quick”都是经过one-hot编码的。如果我们的vocabulary大小为10000时,在输出层,我们希望“quick”单词那个位置输出1,其余都是0。这些其余我们期望输出0的位置所对应的单词我们成为“negative” word。
当使用负采样时,我们将随机选择一小部分的negative words(比如选5个negative words)来更新对应的权重。我们也会对我们的positive word进行权重更新(上面的例子指的是"quick")。

  • 在论文中,作者指出指出对于小规模数据集,选择5-20个negative words会比较好,对于大规模数据集可以仅选择2-5个negative words。

回忆一下我们的隐层-输出层拥有300 x 10000的权重矩阵。如果使用了负采样的方法我们仅仅去更新我们的positive word-“quick”的和我们选择的其他5个negative words的结点对应的权重,共计6个输出神经元,相当于每次只更新300 \times 6 = 1800个权重。对于3百万的权重来说,相当于只计算了0.06%的权重,这样计算效率就大幅度提高。
写到这里,其实还有很多东西没说明白。但这个主题说大了,我暂时先搁置着,等研究透了再来修改增加。

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
一文理解Skip-Gram上下文的预测算法
自然语言处理属于人工智能领域,它将人类语言当做文本或语音来处理,以使计算机和人类更相似,是人工智能最复杂的领域之一。 由于人类的语言数据格式没有固定的规则和条理,机器往往很难理解原始文本。
4524 0
|
6月前
|
机器学习/深度学习 算法 定位技术
神经网络epoch、batch、batch size、step与iteration的具体含义介绍
神经网络epoch、batch、batch size、step与iteration的具体含义介绍
367 1
|
机器学习/深度学习 自然语言处理 运维
Word2Vec:一种基于预测的方法
Word2Vec:一种基于预测的方法
292 0
|
机器学习/深度学习 存储 数据采集
[Paddle2.0学习之第四步](上)词向量之skip-gram
[Paddle2.0学习之第四步](上)词向量之skip-gram
[Paddle2.0学习之第四步](上)词向量之skip-gram
|
机器学习/深度学习 存储 人工智能
文本深度表示模型——word2vec&doc2vec词向量模型
NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。
文本深度表示模型——word2vec&doc2vec词向量模型
|
机器学习/深度学习 自然语言处理
一、序列模型-sequence model2
一、序列模型-sequence model
一、序列模型-sequence model2
|
机器学习/深度学习 Web App开发 自然语言处理
一、序列模型-sequence model
一、序列模型-sequence model
一、序列模型-sequence model
|
机器学习/深度学习 自然语言处理 Python
Word2Vec教程-Negative Sampling 负采样
这篇word2vec教程2中(教程1 Word2Vec教程-Skip-Gram模型),作者主要讲述了skip-gram 模型优化的策略-Negative Sampling,使得模型更加快速地训练。通过教程1,我们了解到word2vec它是一个庞大的神经忘网络! 例如,有一个包含10000个单词的词汇表,向量特征为300维,我们记得这个神经网络将会有两个weights矩阵----一个隐藏层和一个输出层。这两层都会有一个300x10000=3000000的weight矩阵。 在如此大的神经网络上进行梯度下降是非常慢的,更加严重的是,我们需要大量训练数据去调整weights和避免over-fitti
727 0
Word2Vec教程-Negative Sampling 负采样
|
机器学习/深度学习 自然语言处理 算法
Word2Vec教程-Skip-Gram模型
这篇教程主要讲述了Word2Vec中的skip gram模型,主要目的是避免普遍的浅层介绍和抽象观点,而是更加详细地探索Word2Vec。现在我们开始研究skip gram模型吧
492 0
Word2Vec教程-Skip-Gram模型
|
机器学习/深度学习 数据采集 自然语言处理
End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文
传统改机的序列标注系统,需要大量的针对特定任务的手工特征和经过预处理的数据。在这篇文章中,作者引入了一种创新的神经网络结果,使用Bi-LSTM、CNN和CRF相结合的网络结果,使模型能够从词和字级别表示中学习和收益。作者指出他们的系统是真正意义上的端到端结果,不需要任何特征工程或者数据预处理工作,因此可以广泛应用于各种序列标注任务。该模型在PennTreebank WSJ词性标注任务和CoNLL 2003 词性标注数据集上取得优异的成绩,前者97.55%的准确率,后者取得91.21%的F1值。
134 0
End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文