word2vec深入浅出,保证你一看就会(1)-阿里云开发者社区

开发者社区> 沈昱哈哈哈> 正文

word2vec深入浅出,保证你一看就会(1)

简介: 下一篇地址 http://www.atatech.org/articles/55128word2vec 是现在在自然语言处理中非常非常实用的技术,word2vec一般的用途通常有两种,第一种是其他复杂的神经网络模型的初始化,还有一种是把词与词之间的相似度来作为某个模型的特征。word2vec的最大优
+关注继续查看
下一篇地址 https://yq.aliyun.com/articles/64423

word2vec 是现在在自然语言处理中非常非常实用的技术,word2vec一般的用途通常有两种,第一种是其他复杂的神经网络模型的初始化,还有一种是把词与词之间的相似度来作为某个模型的特征。

word2vec的最大优势不但是因为它效果比较好,最大的原因是因为它非常的快,几亿的文本都能很快训练完成,因此深受研究者的喜爱。

word2vec目前主流有两种实现的方式,一个是Mikolov13年的skip-gram实现,另一个是stanford大学的golve实现,两者现在都被广泛使用。

对应的论文分别为
https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

http://nlp.stanford.edu/projects/glove/

本文首先介绍Mikolov13年的skip-gram实现。之后代码的解读会使用google2013的开源代码。




0.说在前头
在介绍原理之前,说一件非常重要的事情,词的vec到底是在哪里表示的? 
答:是skip-gram的输入层到第一个hidden层(一共就一个hidden层)的weight,weight的每一行(或者每一列)代表一个词向量

1.word2vec的背景

过去自然语言处理的时候是怎么表示一个词的?
答:one-hot表示。In vector space terms, this is a vector with one 1 and a lot of zeroes [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
比如
motel [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0] AND hotel [0 0 0 0 0 0 0 1 0 0 0 0 0 0 0] = 0
可是motel和hotel其实是有很大相关性的,但他们and一下竟然是0真的太糟糕了!

因此,很多学者就想到了用前后文来表示一个词,先不管神经网络怎么定义,比如有这个两句话
Hotel lives people.    Motel lives people.
那么我们想得到的效果是, 输入是 Hotel, 答案是 lives, 输入是Hotel 答案是 people.
输入是 Motel 答案是lives, 输入是Motel 答案是people.

从直觉上来说,由于Hotel和Motel作为输入的时候,答案非常类似,因此这两个词也非常相似。



2.word2vec skip-gram实现的神经网络结构

先上图
明确每个部分的含义
input的w(t) 是一个one-hot表示 如 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0...]这个向量的长度其实就是词汇量 V,也就是这个语言的所有的单词的数量。

input->projection的箭头是一个weight取名w1, 为V*H维,H是hidden层的维度。意识到每一个单词的输入其实就一个维上是1,因此w(t)*w1其实就是取了w1中的一列。取的这一列就是单词的词向量。

projection层就是hidden层,为一个H维向量,取名为h。

projection->output的箭头是一个weight取名w2,为H*V维,projection->output的所有箭头都是使用同一个weight,即w2


output层为  hidden层到output层乘积 h*w2的值取softmax。 output层是一个V维向量,取名叫o
output层上还有标有w(t-2) w(t-1)这个是目标值(正解)。也就第t个单词的前后几个单词,前面在input中有提到,w(t-2)w(t-1)都是一个V维向量的one-hot表示。也就是说把计算得到的o和w(t-2),w(t-1)比较,然后类似于logestic regrestion来向这些目标值(正解)靠拢。


明确了每个部分含义以后,再阐述下具体的计算过程
比如有如下文本: 我 去 吃 饭 了
w(t-2)=我 w(t-1)=去 w(t)=吃 w(t+1)=饭 w(t+2)=了    的one-hot

forward 的时候是 o=softmax(w(t)*w1*w2)
backward时候output层loss 是  (o-w(t-2))+(o-w(t-1))+(o-w(t+1))+(o-w(t+2))
要更新的是w1,w2,具体更新方法是backpropagation。


3.word2vec 为什么hotel和motel相似

从上述神经网络结构可以看出,hotel,motel周围的单词比较类似,那在上图中的体现就是output层的答案(hotel和motel周围的词)类似。由于output层的计算值o是由h*w2得到的,w2是共享的weight不会改变,所以在hotel,motel的one-hot作为输入时,h也是很类似的。 而h值其实就是w1中取一列。因此hotel和motel在w1中的取的那一列就很类似。 重要的事情说三遍 取的这一列就是单词的词向量,
因此,hotel和motel的词向量就很相似。



下一期会进行google code的review,刚刚介绍的方法在模型更新时非常缓慢,在实践中有两种更新方法,一种比较高大上,一种听上去傻点,但是效果是一致的。尽请期待。





版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
3203 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4557 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
8039 0
word2vec深入浅出,保证你一看就会(2)
上一期介绍了word2vec的基本构思和skip-gram模型的创建,这一期将进行google的code review 也就是模型的具体迭代。 milkov2013的文章很难以理解,有以下论文对这篇论文进行了详细解读精读! http://www-personal.umich.edu/~r
3738 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9475 0
word2vec深入浅出,保证你一看就会(5)【完结】
这一节将介绍Glove的实际代码编写和调优简化策略。考虑到时间较长,把上文的模型建立再复制黏贴了一次。 下图是官网的展示图,和frog青蛙最相近的词。 ![1](http://img4.tbcdn.cn/L1/461/1/2ee20e14c85c0980bfaa503135b30faca02480ac) 可以看到效果还是比较好的。 ##模型建立 有理由相信,对于三个词\\(i
3015 0
阿里云服务器远程登录用户名和密码的查询方法
阿里云服务器远程连接登录用户名和密码在哪查看?阿里云服务器默认密码是什么?云服务器系统不同默认用户名不同
641 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
4045 0
6
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载