word2vec 超easy解读保证你看了就会(4)!-阿里云开发者社区

word2vec 超easy解读保证你看了就会(4)!

2016-11-18 2683

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这次开始介绍word2vec的第二种实现，GloVe: Global Vectors for Word Representation. 根据我目前的认知，从结果上来说（求解的模型），这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说，看上去是有区别的。 ##GloVe: Global Vectors for Word Representation 同之前介绍的一

这次开始介绍word2vec的第二种实现，GloVe: Global Vectors for Word Representation.
根据我目前的认知，从结果上来说（求解的模型），这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说，看上去是有区别的。

GloVe: Global Vectors for Word Representation

同之前介绍的一样，作者同样认为，一个词的表示可以由这个词的上下文决定。两个词的上下文类似，那么这两个词也就类似或者相关。先上表。

表中$P(i|j)$ 的含义是，在全文本中，词$i$的上下文中$j$的数量 /(除以) 词$i$上下文单词的总数. 记作$frac{X_{ij}}{X_i} $
例如，$P(solid|ice)=1.9*10^{-4}$ 表示单词ice在单词solid附近出现的占比是0.019%.
由于ice是solid（固体）的，steam不是solid的，我们有理由相信，steam在solid周围(上下文，一个滑窗)出现的次数应该小于ice在solid周围出现的次数。
从表中第二行第一列可知，确实如此，steam在solid周围出现的比例大约为0.0022% .
同理由于steam是gas,而ice不是gas，因此\(P(gas|ice)

而water和ice,steam都有密切的关系，因此$P(water|ice)≈P(water|steam)$.
而fashion则和两者关系都不大，因此$P(fashion|ice)≈P(fashion|steam)$.

模型建立

有理由相信，对于三个词$i,j,k$,他们$P(k|i)/P(k|j)$的值可以解释他们之间的关系。
因此，我们可以假设一个函数，自变量是三个词的vec表示，然后函数结果则是$P(k|i)/P(k|j)$。
即

$$ F(w_i,w_j,w_k)=P(i|k)/P(j|k) $$

其中每个$w_i$是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化，和向量相减的思路。于是他提出了把3个自变量三合一。

$$ F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k) $$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后，作者又认为，这个函数必须是群同构映射。我在这就不扯什么是群同构映射了，从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k) $$

联立上面两个方程，可以得到

$$ F(w_i^Tw_k)=P(i|k) $$

而取$F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)$ 上述同态映射就可以满足了。

考虑到这个式子缺少对称性，我们最后改为

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

以上的所有操作都是为了确定函数F是什么样的，每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数，$X_{ik}$ 表示单词k在单词i周围出现的概率。
等式的左边是变量，其中$w_i$是H维词向量，而$b_i$是常数值。

这看上去像是VV（V是词汇量）个方程求解问题，但这基本上无解的，原因是变量只有4V个，而方程有V*V个。所以我们只能再出搬出loss function了。

$$ LOSS=\sum^V_{i,j=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

其中f()是一个权重函数，我们的目的就是最小化LOSS。
至此，模型描述完毕，下一期开始代码解析，模型速度优化和与之前模型的对比。

文章标签：

ice

word2vec 超easy解读保证你看了就会(4)!

GloVe: Global Vectors for Word Representation

模型建立

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

word2vec 超easy解读保证你看了就会(4)!

GloVe: Global Vectors for Word Representation

模型建立

热门文章

最新文章

相关电子书