Word2Vec命令的功能

简介:       下载make好word2vec后,生成以下5个命令:      compute-accuracy:      distance:      word2phrase:就是将词语拼成短语。
      下载make好word2vec后,生成以下5个命令:
     compute-accuracy:
     distance:
      word2phrase:就是将词语拼成短语。
      word2vec:丫应该是make后第一个执行的命令了,因为需要使用该命令训练语料库。我们首先需要准备好txt文本文件,里面全是用空格或Tab空开的词。然后通过以下代码生成*.bin文件,bin里面保存的值就是文档中词语和其对应的向量。千万不要以为,得到的bin文件就一定比input.txt小,超过100M的txt是这样,而且越大越是,但是对于20~50M的语料库而言就不一定了,起码我训练的时候是这样。
  1. ./word2vec -train input.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
     word-analogy:

     在Ubuntu15.04下安装Gensim:
     sudo apt-get install python-numpy python-scipy
      pip install gensim
相关文章
|
网络协议 API
TCP并发服务器(多进程与多线程)
TCP并发服务器(多进程与多线程)
281 0
|
Python
【python】PyQt5实现生成二维码并保存的功能(附源码,带注释)
【python】PyQt5实现生成二维码并保存的功能(附源码,带注释)
380 0
|
XML 存储 Cloud Native
Spring Cloud Alibaba 7 天训练营(一)基础知识篇
对文档有任何问题,请在评论区留言!
42452 1
Spring Cloud Alibaba 7 天训练营(一)基础知识篇
|
10月前
|
人工智能 数据可视化 关系型数据库
产品动态丨阿里云计算巢月刊-2024年第12期
让优秀的企业软件生于云、长于云
|
11月前
|
安全 Java 开发者
Java多线程编程中的常见问题与解决方案
本文深入探讨了Java多线程编程中常见的问题,包括线程安全问题、死锁、竞态条件等,并提供了相应的解决策略。文章首先介绍了多线程的基础知识,随后详细分析了每个问题的产生原因和典型场景,最后提出了实用的解决方案,旨在帮助开发者提高多线程程序的稳定性和性能。
|
关系型数据库 MySQL 数据库
debian11编译安装freeswitch
debian11编译安装freeswitch
313 0
|
算法 Python
利用贝叶斯算法对简单应用实现预测分类
利用贝叶斯算法对简单应用实现预测分类
178 0
|
存储 缓存 编解码
【FFmpeg 视频基本格式】深入理解FFmpeg:从YUV到PCM,解码到编码(一)
【FFmpeg 视频基本格式】深入理解FFmpeg:从YUV到PCM,解码到编码
410 0
|
人工智能 弹性计算 Kubernetes
如何基于 ACK Serverless 快速部署 AI 推理服务
如何基于 ACK Serverless 快速部署 AI 推理服务
|
机器学习/深度学习 人工智能 自然语言处理
LLM系列 | 13: 亲测ChatGPT的重磅功能:函数调用 (以天气问答为例)
本文以天气问答为例,实践方式介绍ChatGPT的函数调用
LLM系列 | 13:  亲测ChatGPT的重磅功能:函数调用 (以天气问答为例)