Word2Vec命令的功能

简介:       下载make好word2vec后,生成以下5个命令:      compute-accuracy:      distance:      word2phrase:就是将词语拼成短语。
      下载make好word2vec后,生成以下5个命令:
     compute-accuracy:
     distance:
      word2phrase:就是将词语拼成短语。
      word2vec:丫应该是make后第一个执行的命令了,因为需要使用该命令训练语料库。我们首先需要准备好txt文本文件,里面全是用空格或Tab空开的词。然后通过以下代码生成*.bin文件,bin里面保存的值就是文档中词语和其对应的向量。千万不要以为,得到的bin文件就一定比input.txt小,超过100M的txt是这样,而且越大越是,但是对于20~50M的语料库而言就不一定了,起码我训练的时候是这样。
  1. ./word2vec -train input.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
     word-analogy:

     在Ubuntu15.04下安装Gensim:
     sudo apt-get install python-numpy python-scipy
      pip install gensim
相关文章
|
网络协议 API
TCP并发服务器(多进程与多线程)
TCP并发服务器(多进程与多线程)
294 0
|
Python
【python】PyQt5实现生成二维码并保存的功能(附源码,带注释)
【python】PyQt5实现生成二维码并保存的功能(附源码,带注释)
390 0
|
数据库
面向失败的设计-Planning for failure
这篇文章,将会介绍如何把结构化状况以及应对方式,从而得以以系统地方式沉淀积累,成为可复用的预案;最后,文章会结合阿里巴巴10年大促的实践,给出实践预案的原则性建议。
1888 0
|
10月前
|
人工智能 数据可视化 关系型数据库
产品动态丨阿里云计算巢月刊-2024年第12期
让优秀的企业软件生于云、长于云
|
11月前
|
安全 Java 开发者
Java多线程编程中的常见问题与解决方案
本文深入探讨了Java多线程编程中常见的问题,包括线程安全问题、死锁、竞态条件等,并提供了相应的解决策略。文章首先介绍了多线程的基础知识,随后详细分析了每个问题的产生原因和典型场景,最后提出了实用的解决方案,旨在帮助开发者提高多线程程序的稳定性和性能。
|
存储 安全 Java
settings.xml详解(很详细读这一篇就够了)
settings.xml是Java项目中用于配置Maven的重要文件,它详细规定了Maven的运行规则和行为。该文件通常位于用户家目录下的.m2文件夹中,或者项目根目录下的.mvn文件夹内。settings.xml中包含了众多配置项,从代理设置、镜像仓库配置,到服务器认证信息、插件组等,均可以在此文件中进行细致定义。通过合理配置settings.xml,我们可以优化Maven的依赖下载速度,保障仓库访问的安全性,甚至实现私有仓库的搭建与管理。深入了解settings.xml的每一项配置,对于提高Maven使用效率、保障项目构建稳定性具有重要意义。因此,无论是Maven初学者还是资深用户,都应仔
14691 4
|
关系型数据库 MySQL 数据库
debian11编译安装freeswitch
debian11编译安装freeswitch
343 0
|
算法 Python
利用贝叶斯算法对简单应用实现预测分类
利用贝叶斯算法对简单应用实现预测分类
188 0
|
存储 缓存 编解码
【FFmpeg 视频基本格式】深入理解FFmpeg:从YUV到PCM,解码到编码(一)
【FFmpeg 视频基本格式】深入理解FFmpeg:从YUV到PCM,解码到编码
439 0
|
人工智能 弹性计算 Kubernetes
如何基于 ACK Serverless 快速部署 AI 推理服务
如何基于 ACK Serverless 快速部署 AI 推理服务