word2vec 入门(二)

简介: word2vec 要解决问题: 在神经网络中学习将word映射成连续(高维)向量,这样通过训练,就可以把对文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。 一般来说, word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。另外还有其向量的加法组合算法。官网上的例子是 : vector('

word2vec

要解决问题: 在神经网络中学习将word映射成连续(高维)向量,这样通过训练,就可以把对文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。

一般来说, word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。另外还有其向量的加法组合算法。官网上的例子是 :

vector('Paris') - vector('France') +
vector('Italy') ≈vector('Rome'), vector('king') - vector('man') + vector('woman') ≈
vector('queen')

但其实word2vec也只是少量的例子完美符合这种加减法操作,并不是所有的 case 都满足。

快速入门

1、从http://word2vec.googlecode.com/svn/trunk/ 下载所有相关代码:
一种方式是使用svn Checkout,可加代理进行check。
另一种就是export to github,然后再github上下载,我选择第二种方式下载。

2、运行make编译word2vec工具:(如果其中makefile文件后有.txt后缀,将其去掉)在当前目录下执行make进行编译,生成可执行文件(编译过程中报出很出Warning,暂且不管);

3、运行示例脚本:./demo-word.sh 看一下./demo-word.sh的内容,大致执行了3步操作

  • 从http://mattmahoney.net/dc/text8.zip 下载了一个文件text8 ( 一个解压后不到100M的txt文件,可自己下载并解压放到同级目录下);
  • 使用文件text8进行训练,训练过程比较长;
  • 执行word2vec生成词向量到 vectors.bin文件中,(速度比较快,几分钟的事情)

在demo-word.sh中有如下命令

运行结果如图:


time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 15


以上命令

-train text8 表示的是输入文件是text8

-output vectors.bin 输出文件是vectors.bin

-cbow 1 表示使用cbow模型,默认为Skip-Gram模型

-size 200 每个单词的向量维度是200

-window 8 训练的窗口大小为5就是考虑一个词前八个和后八个词语(实际代码中还有一个随机选窗口的过程,窗口大小小于等于8)

-negative 0 -hs 1不使用NEG方法,使用HS方法。-

sampe指的是采样的阈值,如果一个词语在训练样本中出现的频率越大,那么就越会被采样。

-binary为1指的是结果二进制存储,为0是普通存储(普通存储的时候是可以打开看到词语和对应的向量的)

-iter 15 迭代次数


demo-word.sh中最后一行命令是./distance vectors.bin

该命令是计算距离的命令,可计算与每个词最接近的词了:


word2vec还有几个参数对我们比较有用比如-alpha设置学习速率,默认的为0.025. –min-count设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃。-classes设置聚类个数,看了一下源码用的是k-means聚类的方法。要注意-threads 20 线程数也会对结果产生影响。

  • 架构:skip-gram(慢、对罕见字有利)vs CBOW(快)
  • 训练算法:分层softmax(对罕见字有利)vs 负采样(对常见词和低纬向量有利)
  • 欠采样频繁词:可以提高结果的准确性和速度(适用范围1e-3到1e-5)
  • 文本(window)大小:skip-gram通常在10附近,CBOW通常在5附近

4、运行命令 ./demo-phrases.sh:查看该脚本内容,主要执行以下步骤:

最后一行命令./distance vectors-phrase.bin,一个计算word相似度的demo中去,结果如下:


结果好坏跟训练词库有关。

番外:
如果需要中文语料库,推荐使用维基的或者搜狗(http://www.sogou.com/labs/dl/ca.html),中文分词可使用结巴分词,我觉得很好用。然后进行训练,因为英文不用分词,所以上述过程不涉及分词。

本文主要偏应用,讲解一个例子,便于对word2vec有一个初步了解,后续再更原理。



目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 Python
Word2Vec
Word2Vec是由Google在2013年提出的词嵌入模型,能将词语转化为捕捉语义和句法关系的向量。它包含CBOW和Skip-Gram两种模型,分别通过上下文预测目标词或反之。Word2Vec在文本分类、情感分析等领域广泛应用,并可通过gensim等工具轻松实现。
|
4月前
|
机器学习/深度学习 自然语言处理 Python
|
机器学习/深度学习 自然语言处理 运维
Word2Vec:一种基于预测的方法
Word2Vec:一种基于预测的方法
307 0
|
自然语言处理 数据可视化 数据处理
基于gensim实现word2vec模型(附案例实战)
基于gensim实现word2vec模型(附案例实战)
989 1
基于gensim实现word2vec模型(附案例实战)
|
机器学习/深度学习 自然语言处理 算法
Word2Vec原理以及实战详解
Word2Vec原理以及实战详解
|
机器学习/深度学习 存储 数据采集
词向量word2vec(图学习参考资料1)
词向量word2vec(图学习参考资料1)
|
数据采集 机器学习/深度学习 自然语言处理
sent2vec教程
sent2vec是用于无监督学习词、短文本、句的Python包。本文是sent2vec的简易教程,包括安装教程和简单的使用方法。文中使用英语文本作为示例。 sent2vec除文中所提及内容之外的功能,以后可能会继续补充到本博文中。
|
机器学习/深度学习 自然语言处理 算法
CS224n 笔记2-词向量表示:Word2vec(一)
CS224n 笔记2-词向量表示:Word2vec(一)
173 0
CS224n 笔记2-词向量表示:Word2vec(一)
|
机器学习/深度学习 自然语言处理
CS224n 笔记2-词向量表示:Word2vec(二)
CS224n 笔记2-词向量表示:Word2vec(二)
125 0
CS224n 笔记2-词向量表示:Word2vec(二)
|
机器学习/深度学习 自然语言处理 算法
Word2Vec教程-Skip-Gram模型
这篇教程主要讲述了Word2Vec中的skip gram模型,主要目的是避免普遍的浅层介绍和抽象观点,而是更加详细地探索Word2Vec。现在我们开始研究skip gram模型吧
498 0
Word2Vec教程-Skip-Gram模型