Word2Vec教程-Negative Sampling 负采样

简介: 这篇word2vec教程2中(教程1 Word2Vec教程-Skip-Gram模型),作者主要讲述了skip-gram 模型优化的策略-Negative Sampling,使得模型更加快速地训练。通过教程1,我们了解到word2vec它是一个庞大的神经忘网络!例如,有一个包含10000个单词的词汇表,向量特征为300维,我们记得这个神经网络将会有两个weights矩阵----一个隐藏层和一个输出层。这两层都会有一个300x10000=3000000的weight矩阵。在如此大的神经网络上进行梯度下降是非常慢的,更加严重的是,我们需要大量训练数据去调整weights和避免over-fitti

这篇word2vec教程2中(教程1 Word2Vec教程-Skip-Gram模型),作者主要讲述了skip-gram 模型优化的策略-Negative Sampling,使得模型更加快速地训练。通过教程1,我们了解到word2vec它是一个庞大的神经忘网络!


例如,有一个包含10000个单词的词汇表,向量特征为300维,我们记得这个神经网络将会有两个weights矩阵----一个隐藏层和一个输出层。这两层都会有一个300x10000=3000000的weight矩阵。

在如此大的神经网络上进行梯度下降是非常慢的,更加严重的是,我们需要大量训练数据去调整weights和避免over-fitting。


Word2Vec作者在这篇论文解决列这些问题,主要提到3种措施:

  • 在模型种将共同出现的单词对或者短语当做单个“词”
  • 二次采样经常出现的单词,以减少训练数据的数量
  • 改变优化目标函数-使用“Negative Sampleing”,将会使训练样本更新少量模型的weights
    值得注意的是,对频繁词进行二次抽样和应用负抽样不仅减少了训练过程的计算负担,而且还提高了其结果词向量的质量。


Word Pairs and “Phrases” · 单词对和“短语”


作者指出,像“波士顿环球报”(一家报纸)这样的词组与“波士顿”和“环球报”这两个单词有着非常不同的含义。所以“Boston Globe”不论出现在文中哪个位置,将它视为具有自己词向量标示的单个词语是有道理的。

在作者发布的模型结果中,我们了解到模型基于1000亿字的谷歌新闻中训练出来的。“短语”的加入使词汇量减小到300个词语!


如果你对结果词汇感兴趣,你可以在Google's trained Word2Vec model in Pythoninspect_word2vec看到.短语检测方法在论文中“Learning Phrases”部分提到,代码在。他们这个工具每次传入两个词语的组合,但是你可以运行多次来获得更长的短语。比如一次传入“New_York”,下次再运行的时候将会“New_York_City”看做是“New_York”和“City”的组合。该短语提取工具统计两个单词组合在训练文本中出现的次数,然后统计的参数将会用于个一个等式,以便决定它们是否可以成为一个短语。它更将倾向于不经常出现的单词短语,以避免将“and the”和“this is”作为短语。


Subsampling Frequent Words · 二次抽样高频词


在第一篇教程中,作者已经展示了如何形成训练样本,这儿才重复下。下面例子展示了句子“The quick brown fox jumps over the lazy dog.”的训练样本。使用一个大小为的2窗口,我们将会形成下面的训练样本。


52.png


有两个关于高频词类似“the”的问题:

  • 在观察单词组时,我们发现(“fox”,“the”)不会产生关于“fox”的信息。“the”经常出现在每个单词的上下文中。
  • 我们将会有多样本(“the”,....),远超过我们需要训练“the”的样本数量。
    Word2Vec通过“二次采样”方案来解决上述问题。对于出现在训练文中的每个单词,都会有一个从文本删除的概率,这个概率取决于相应单词的词频。
    如果我们窗口大小为10,我们下面是将会去除“the”的特定实例:
  • 当我们在剩余单词中训练时,“the”将不会出现在我们的文本中
  • 我们将会有10个很少包含“the”的训练样本


Sampling Rate · 采样率


word2vec c代码实现了一个计算词汇表的给定单词的概率。wi是一个单词,z(wi)是单词w出现的次数与总单词个数的比值。例如“peanut”在1 billion 单词语料中出现了1000次,那么z('peanut')=1E-6

在代码中有个参数sample来控制subsampling出现的概率,默认值为0.001.sample值越小代表单词保留的概率越小。


P(Wi)是保留该单词的概率:

53.png


下面是该公式的曲线:


54.png


在上图中我们可以发现,没有一个单:会占整个语料的很大比例,所以x轴的值是非常小的。


另外下面几个关于整个函数有意思的点:

  • P(Wi)=1.0(100%会保留) 当z(wi)<=0.0026。这意味着当单词个数占总单词个数
    的超过0.26%将会被二次采样。
  • P(wi)=0.5 (50% 的概率会保留) 当 z(wi)=0.00746.
  • P(wi)=0.033 (3.3%  的概率会保留) 当z(wi)=1.0.这意味着整个语料库只包含一个单词,这会是非常荒唐的语料库。<( ̄ ﹌  ̄)>


你将会注意到论文中定义的函数与这里有些区别,但是这里版本是C代码中实现的,是比较权威的。哈哈

55.png


Negative Sampling · 负采样


在训练神经网络时,每当接受一个训练样本,然后调整所有神经单元权重参数,来使神经网络预测更加准确。换句话说,每个训练样本都将会调整所有神经网络中的参数。

我们词汇表的大小决定了我们skip-gram 神经网络将会有一个非常大的权重参数,并且所有的权重参数会随着数十亿训练样本不断调整。


negative sampling  每次让一个训练样本仅仅更新一小部分的权重参数,从而降低梯度下降过程中的计算量。


如果 vocabulary 大小为1万时, 当输入样本 ( "fox", "quick") 到神经网络时, “ fox” 经过 one-hot 编码,在输出层我们期望对应 “quick” 单词的那个神经元结点输出 1,其余 9999 个都应该输出 0。在这里,这9999个我们期望输出为0的神经元结点所对应的单词我们为 negative word.   negative sampling 的想法也很直接 ,将随机选择一小部分的 negative words,比如选 10个 negative words 来更新对应的权重参数。

在论文中作者指出指出对于小规模数据集,建议选择 5-20 个 negative words,对于大规模数据集选择 2-5个 negative words.


如果使用了 negative sampling 仅仅去更新positive word- “quick” 和选择的其他 10 个negative words 的结点对应的权重,共计 11 个输出神经元,相当于每次只更新 300 x 11 = 3300 个权重参数。对于 3百万 的权重来说,相当于只计算了千分之一的权重,这样计算效率就大幅度提高。


Selecting Negative Samples


使用 一元模型分布 (unigram distribution) 来选择 negative words,一个单词被选作 negative sample 的概率跟它出现的频次有关,出现频次越高的单词越容易被选作negative words,经验公式为:


56.png

f(w) 代表 每个单词被赋予的一个权重,即 它单词出现的词频,分母 代表所有单词的权重和。公式中3/4完全是基于经验的,论文中提到这个公式的效果要比其它公式更加出色。


57.png


Other Resources · 其他资源



相关文章
|
机器学习/深度学习 自然语言处理 运维
Word2Vec:一种基于预测的方法
Word2Vec:一种基于预测的方法
186 0
|
机器学习/深度学习 存储 算法
YOLOv5的Tricks | 【Trick7】指数移动平均(Exponential Moving Average,EMA)
这篇博客主要用于整理网上对EMA(指数移动平均)的介绍,在yolov5代码中也使用了这个技巧,现对其进行归纳。
1436 1
YOLOv5的Tricks | 【Trick7】指数移动平均(Exponential Moving Average,EMA)
|
机器学习/深度学习 自然语言处理 算法
Word2Vec教程-Skip-Gram模型
这篇教程主要讲述了Word2Vec中的skip gram模型,主要目的是避免普遍的浅层介绍和抽象观点,而是更加详细地探索Word2Vec。现在我们开始研究skip gram模型吧
428 0
Word2Vec教程-Skip-Gram模型
|
自然语言处理 算法 Python
Gensim实现Word2Vec的Skip-Gram模型
gensim是一个开源的Python库,用于便捷高效地提取文档中的语义话题。它用于处理原始的、非结构化的电子文本(“纯文本”),gensim中的一些算法,如 Latent Semantic Analysis(潜在语义分析)、 Latent Dirichlet Allocation(潜在Dirichlet分布)、Random Projections(随机预测)通过检查训练文档中的共现实体来挖掘语义结构。
242 0
|
机器学习/深度学习 数据采集 自然语言处理
End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文
传统改机的序列标注系统,需要大量的针对特定任务的手工特征和经过预处理的数据。在这篇文章中,作者引入了一种创新的神经网络结果,使用Bi-LSTM、CNN和CRF相结合的网络结果,使模型能够从词和字级别表示中学习和收益。作者指出他们的系统是真正意义上的端到端结果,不需要任何特征工程或者数据预处理工作,因此可以广泛应用于各种序列标注任务。该模型在PennTreebank WSJ词性标注任务和CoNLL 2003 词性标注数据集上取得优异的成绩,前者97.55%的准确率,后者取得91.21%的F1值。
105 0
End to End Sequence Labeling via Bidirectional LSTM-CNNs-CRF论文
|
算法 计算机视觉
泊松分布采样 (Poisson-Disk-Sample)代码及详细注释【OpenCV】
泊松分布采样 (Poisson-Disk-Sample)代码及详细注释【OpenCV】
732 0
泊松分布采样 (Poisson-Disk-Sample)代码及详细注释【OpenCV】
|
机器学习/深度学习
word2vec -- 负采样 -- skip-gram
我以前写过一篇关于word2vec的文章,说实话,写的一坨,我决定以后写博客认认真真的去写。 我的博客来自于网上各位前辈的资料的整理,这位这位和这位翻译的让我对word2vec有了深入的理解。
2235 0
|
机器学习/深度学习 资源调度 算法
|
机器学习/深度学习 资源调度 自然语言处理
word2vec原理(二) 基于Hierarchical Softmax的模型
在word2vec原理(一) CBOW与Skip-Gram模型基础中,我们讲到了使用神经网络的方法来得到词向量语言模型的原理和一些问题,现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。
2549 0