开发者社区> 五岳之巅> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Word2Vec命令的功能

简介:       下载make好word2vec后,生成以下5个命令:      compute-accuracy:      distance:      word2phrase:就是将词语拼成短语。
+关注继续查看
      下载make好word2vec后,生成以下5个命令:
     compute-accuracy:
     distance:
     word2phrase:就是将词语拼成短语。
     word2vec:丫应该是make后第一个执行的命令了,因为需要使用该命令训练语料库。我们首先需要准备好txt文本文件,里面全是用空格或Tab空开的词。然后通过以下代码生成*.bin文件,bin里面保存的值就是文档中词语和其对应的向量。千万不要以为,得到的bin文件就一定比input.txt小,超过100M的txt是这样,而且越大越是,但是对于20~50M的语料库而言就不一定了,起码我训练的时候是这样。
  1. ./word2vec -train input.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
     word-analogy:

     在Ubuntu15.04下安装Gensim:
     sudo apt-get install python-numpy python-scipy
      pip install gensim

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
word2vec原理(二) 基于Hierarchical Softmax的模型
在word2vec原理(一) CBOW与Skip-Gram模型基础中,我们讲到了使用神经网络的方法来得到词向量语言模型的原理和一些问题,现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。
2203 0
word2vec 入门(二)
word2vec 要解决问题: 在神经网络中学习将word映射成连续(高维)向量,这样通过训练,就可以把对文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。 一般来说, word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。另外还有其向量的加法组合算法。官网上的例子是 : vector('
2126 0
ASP.NET MVC的客户端验证:jQuery的验证
原文:ASP.NET MVC的客户端验证:jQuery的验证 之前我们一直讨论的Model验证仅限于服务端验证,即在Web服务器根据相应的规则对请求数据实施验证。如果我们能够在客户端(浏览器)对用户输入的数据先进行验证,这样会减少针对服务器请求的频率,从而缓解Web服务器访问的压力。
910 0
VC打开对话框
CString tStr = "Mp3 File(*.mp3)|*.mp3|"; tStr += "Wma File(*.wma)|*.wma|"; tStr += "Avi File(*.avi)|*.avi|"; tStr += "Mid File(*.mid)|*.mid|"; tStr += "Mpeg File(*.mpeg)|*.mpeg|"; tStr += "All
928 0
+关注
262
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载