word2vec深入浅出,保证你一看就会(5)【完结】-阿里云开发者社区

开发者社区> 沈昱哈哈哈> 正文

word2vec深入浅出,保证你一看就会(5)【完结】

简介: 这一节将介绍Glove的实际代码编写和调优简化策略。考虑到时间较长,把上文的模型建立再复制黏贴了一次。 下图是官网的展示图,和frog青蛙最相近的词。 ![1](http://img4.tbcdn.cn/L1/461/1/2ee20e14c85c0980bfaa503135b30faca02480ac) 可以看到效果还是比较好的。 ##模型建立 有理由相信,对于三个词\\(i
+关注继续查看

这一节将介绍Glove的实际代码编写和调优简化策略。考虑到时间较长,把上文的模型建立再复制黏贴了一次。

下图是官网的展示图,和frog青蛙最相近的词。
1
可以看到效果还是比较好的。

模型建立

有理由相信,对于三个词\(i,j,k\),他们\(P(k|i)/P(k|j)\)的值可以解释他们之间的关系。
因此,我们可以假设一个函数,自变量是三个词的vec表示,然后函数结果则是\(P(k|i)/P(k|j)\)。

$$ F(w_i,w_j,w_k)=P(i|k)/P(j|k) $$

其中每个\(w_i\)是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化,和向量相减的思路。于是他提出了把3个自变量三合一。

$$ F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k) $$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后,作者又认为,这个函数必须是群同构映射。我在这就不扯什么是群同构映射了,从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k) $$

联立上面两个方程,可以得到

$$ F(w_i^Tw_k)=P(i|k) $$

而取\(F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)\) 上述同态映射就可以满足了。

考虑到这个式子缺少对称性,我们最后改为

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

以上的所有操作都是为了确定函数F是什么样的,每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数,\(X_{ik}\) 表示单词k在单词i周围出现的概率。
等式的左边是变量,其中\(w_i\)是H维词向量,而\(b_i\)是常数值。

这看上去像是VV(V是词汇量)个方程求解问题,但这基本上无解的,原因是变量只有4V个,而方程有V*V个。所以我们只能再出搬出loss function了。

Glove更新计算量和调优

上文中我们提到了建立loss函数,如下

$$ LOSS=\sum^V_{i,k=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

其中f()是一个权重函数,我们的目的就是最小化LOSS。

理论的一次更新复杂度V*V,即两个词汇两两之间的算式。
但是我们可以控制f()权重函数来限制需要更新的算式。

首选当\(X_{ik}=0\)的时候,这个代表,单词i在单词k附件完全没有出现。对于这种0的情况,我们认为之前提到的等式

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

完全没有成立的必要。因此\(f()=0\) 当\(X_{ik}=0\)。也就是说这种情况下,它不会对LOSS产生影响,实际情况下也就不会参与计算。考虑到对于单词i来说,他的上下文会出现的单词种类其实并不是那么大,例如“西瓜”的上下文很难想象会出现一个化学名称。因此每次更新的复杂度就下降到了一个n(常量)V的程度。

对于过大的\(X_{ik}\),我们同样不想过拟合,当\(X_{ik}=X_{max},f(*)=1\)。中间的数值就在(0,1)之间浮动了。

接下来的节约时间的手法已经是被玩坏用烂的手法了,即随机梯度下降法。也就是说一个算式计算一次loss,立即更新,以进一步增加更新的速度。或者可以加个batch size啊,这个就自由发挥了。

$$ LOSS= f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

代码解析

先理论推导下各变量求导:

$$ w_i^{new}=w_i^{old}-η*输出层错误*w_k $$

$$ w_k^{new}=w_k^{old}-η*输出层错误*w_i $$

$$ b_k^{new}=b_k^{old}-η*输出层错误 $$

其中输出层错误为

$$ 2 * f() * (w_i^Tw_k+b_i+b_k-log(X_{ik})) $$

我们再来联系相关代码

        /* Adaptive gradient updates */
        fdiff *= eta; // for ease in calculating gradient
        for(b = 0; b < vector_size; b++) {
            // learning rate times gradient for word vectors
            temp1 = fdiff * W[b + l2];
            temp2 = fdiff * W[b + l1];
            // adaptive updates
            W[b + l1] -= temp1 / sqrt(gradsq[b + l1]);
            W[b + l2] -= temp2 / sqrt(gradsq[b + l2]);
            gradsq[b + l1] += temp1 * temp1;
            gradsq[b + l2] += temp2 * temp2;
        }
        // updates for bias terms
        W[vector_size + l1] -= fdiff / sqrt(gradsq[vector_size + l1]);
        W[vector_size + l2] -= fdiff / sqrt(gradsq[vector_size + l2]);
        fdiff *= fdiff;
        gradsq[vector_size + l1] += fdiff;
        gradsq[vector_size + l2] += fdiff;

其中fdiff为理论推导的“输出层错误”,temp1,temp2即理论推导中的\(输出层错误w_k 和 输出层错误w_i\)。 W为存放词向量的数组,l1,l2记录了两个词向量的开始位置。作者使用了Adaptive gradient updates ,即自适应的更新策略。简单来说就是每个变量记录自己更新的次数,更新次数越多后面步长越小,gradsq数组存储了这个自适应,可以看到随着gradsq数组内的值不断累加,W数组的迭代会越变越慢。

            temp1 = fdiff * W[b + l2];
            temp2 = fdiff * W[b + l1];
            W[b + l1] -= temp1 / sqrt(gradsq[b + l1]);
            W[b + l2] -= temp2 / sqrt(gradsq[b + l2]);

这几行对应了理论分析的前两行,对\(w_i,w_k\)两个词向量的更新。之后几行则是更新了\(b_i,b_k\).

可以发现整篇文章虽然出发点和milkov的word2vec不同,但是到最后的实际编程阶段,整个计算过程和迭代其实已经同质化。至此word2vec相关介绍告一段落。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
3223 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4559 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
8052 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9477 0
word2vec深入浅出,保证你一看就会(1)
下一篇地址 http://www.atatech.org/articles/55128word2vec 是现在在自然语言处理中非常非常实用的技术,word2vec一般的用途通常有两种,第一种是其他复杂的神经网络模型的初始化,还有一种是把词与词之间的相似度来作为某个模型的特征。word2vec的最大优
7137 0
word2vec深入浅出,保证你一看就会(5)【完结】
这一节将介绍Glove的实际代码编写和调优简化策略。考虑到时间较长,把上文的模型建立再复制黏贴了一次。 下图是官网的展示图,和frog青蛙最相近的词。 ![1](http://img4.tbcdn.cn/L1/461/1/2ee20e14c85c0980bfaa503135b30faca02480ac) 可以看到效果还是比较好的。 ##模型建立 有理由相信,对于三个词\\(i
3015 0
阿里云服务器远程登录用户名和密码的查询方法
阿里云服务器远程连接登录用户名和密码在哪查看?阿里云服务器默认密码是什么?云服务器系统不同默认用户名不同
657 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
4063 0
6
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载