word2vec深入浅出，保证你一看就会（5）【完结】-阿里云开发者社区

word2vec深入浅出，保证你一看就会（5）【完结】

2016-11-18 3309

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这一节将介绍Glove的实际代码编写和调优简化策略。考虑到时间较长，把上文的模型建立再复制黏贴了一次。下图是官网的展示图，和frog青蛙最相近的词。 ![1](http://img4.tbcdn.cn/L1/461/1/2ee20e14c85c0980bfaa503135b30faca02480ac) 可以看到效果还是比较好的。 ##模型建立有理由相信，对于三个词\\(i

这一节将介绍Glove的实际代码编写和调优简化策略。考虑到时间较长，把上文的模型建立再复制黏贴了一次。

下图是官网的展示图，和frog青蛙最相近的词。

可以看到效果还是比较好的。

模型建立

有理由相信，对于三个词$i,j,k$,他们$P(k|i)/P(k|j)$的值可以解释他们之间的关系。
因此，我们可以假设一个函数，自变量是三个词的vec表示，然后函数结果则是$P(k|i)/P(k|j)$。
即

$$ F(w_i,w_j,w_k)=P(i|k)/P(j|k) $$

其中每个$w_i$是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化，和向量相减的思路。于是他提出了把3个自变量三合一。

$$ F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k) $$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后，作者又认为，这个函数必须是群同构映射。我在这就不扯什么是群同构映射了，从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k) $$

联立上面两个方程，可以得到

$$ F(w_i^Tw_k)=P(i|k) $$

而取$F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)$ 上述同态映射就可以满足了。

考虑到这个式子缺少对称性，我们最后改为

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

以上的所有操作都是为了确定函数F是什么样的，每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数，$X_{ik}$ 表示单词k在单词i周围出现的概率。
等式的左边是变量，其中$w_i$是H维词向量，而$b_i$是常数值。

这看上去像是VV（V是词汇量）个方程求解问题，但这基本上无解的，原因是变量只有4V个，而方程有V*V个。所以我们只能再出搬出loss function了。

Glove更新计算量和调优

上文中我们提到了建立loss函数，如下

$$ LOSS=\sum^V_{i,k=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

其中f()是一个权重函数，我们的目的就是最小化LOSS。

理论的一次更新复杂度V*V，即两个词汇两两之间的算式。
但是我们可以控制f()权重函数来限制需要更新的算式。

首选当$X_{ik}=0$的时候，这个代表，单词i在单词k附件完全没有出现。对于这种0的情况，我们认为之前提到的等式

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

完全没有成立的必要。因此$f()=0$ 当$X_{ik}=0$。也就是说这种情况下，它不会对LOSS产生影响，实际情况下也就不会参与计算。考虑到对于单词i来说，他的上下文会出现的单词种类其实并不是那么大，例如“西瓜”的上下文很难想象会出现一个化学名称。因此每次更新的复杂度就下降到了一个n（常量）V的程度。

对于过大的$X_{ik}$，我们同样不想过拟合，当$X_{ik}=X_{max},f(*)=1$。中间的数值就在(0,1)之间浮动了。

接下来的节约时间的手法已经是被玩坏用烂的手法了，即随机梯度下降法。也就是说一个算式计算一次loss，立即更新，以进一步增加更新的速度。或者可以加个batch size啊，这个就自由发挥了。
即

$$ LOSS= f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

代码解析

先理论推导下各变量求导：

$$ w_i^{new}=w_i^{old}-η*输出层错误*w_k $$

$$ w_k^{new}=w_k^{old}-η*输出层错误*w_i $$

$$ b_k^{new}=b_k^{old}-η*输出层错误 $$

其中输出层错误为

$$ 2 * f() * (w_i^Tw_k+b_i+b_k-log(X_{ik})) $$

我们再来联系相关代码

        /* Adaptive gradient updates */
        fdiff *= eta; // for ease in calculating gradient
        for(b = 0; b < vector_size; b++) {
            // learning rate times gradient for word vectors
            temp1 = fdiff * W[b + l2];
            temp2 = fdiff * W[b + l1];
            // adaptive updates
            W[b + l1] -= temp1 / sqrt(gradsq[b + l1]);
            W[b + l2] -= temp2 / sqrt(gradsq[b + l2]);
            gradsq[b + l1] += temp1 * temp1;
            gradsq[b + l2] += temp2 * temp2;
        }
        // updates for bias terms
        W[vector_size + l1] -= fdiff / sqrt(gradsq[vector_size + l1]);
        W[vector_size + l2] -= fdiff / sqrt(gradsq[vector_size + l2]);
        fdiff *= fdiff;
        gradsq[vector_size + l1] += fdiff;
        gradsq[vector_size + l2] += fdiff;

其中fdiff为理论推导的“输出层错误”，temp1，temp2即理论推导中的$输出层错误w_k 和输出层错误w_i$。 W为存放词向量的数组，l1,l2记录了两个词向量的开始位置。作者使用了Adaptive gradient updates ，即自适应的更新策略。简单来说就是每个变量记录自己更新的次数，更新次数越多后面步长越小，gradsq数组存储了这个自适应，可以看到随着gradsq数组内的值不断累加，W数组的迭代会越变越慢。

            temp1 = fdiff * W[b + l2];
            temp2 = fdiff * W[b + l1];
            W[b + l1] -= temp1 / sqrt(gradsq[b + l1]);
            W[b + l2] -= temp2 / sqrt(gradsq[b + l2]);

这几行对应了理论分析的前两行，对$w_i,w_k$两个词向量的更新。之后几行则是更新了$b_i,b_k$.

可以发现整篇文章虽然出发点和milkov的word2vec不同，但是到最后的实际编程阶段，整个计算过程和迭代其实已经同质化。至此word2vec相关介绍告一段落。

word2vec深入浅出，保证你一看就会（5）【完结】

模型建立

Glove更新计算量和调优

代码解析

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

word2vec深入浅出，保证你一看就会（5）【完结】

模型建立

Glove更新计算量和调优

代码解析

热门文章

最新文章

相关电子书