Word2Vec命令的功能

简介:       下载make好word2vec后,生成以下5个命令:      compute-accuracy:      distance:      word2phrase:就是将词语拼成短语。
      下载make好word2vec后,生成以下5个命令:
     compute-accuracy:
     distance:
      word2phrase:就是将词语拼成短语。
      word2vec:丫应该是make后第一个执行的命令了,因为需要使用该命令训练语料库。我们首先需要准备好txt文本文件,里面全是用空格或Tab空开的词。然后通过以下代码生成*.bin文件,bin里面保存的值就是文档中词语和其对应的向量。千万不要以为,得到的bin文件就一定比input.txt小,超过100M的txt是这样,而且越大越是,但是对于20~50M的语料库而言就不一定了,起码我训练的时候是这样。
  1. ./word2vec -train input.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
     word-analogy:

     在Ubuntu15.04下安装Gensim:
     sudo apt-get install python-numpy python-scipy
      pip install gensim
相关文章
|
机器学习/深度学习 人工智能 监控
【AI 现况分析】AI大模型在财务规划和建议中的应用
【1月更文挑战第27天】【AI 现况分析】AI大模型在财务规划和建议中的应用
【鸿蒙软件开发】进度条Progress
【鸿蒙软件开发】进度条Progress
654 0
|
存储 缓存 分布式计算
【Hbase】(十一)详解 HBase 表的设计原则
【Hbase】(十一)详解 HBase 表的设计原则
1784 0
【Hbase】(十一)详解 HBase 表的设计原则
|
Linux iOS开发 MacOS
Python 工具和库:解释什么是虚拟环境(Virtual Environment)?为什么要使用它?
Python 工具和库:解释什么是虚拟环境(Virtual Environment)?为什么要使用它?
1337 0
|
关系型数据库 MySQL 数据库
MyEMS开源系统安装之数据库
本文详细讲解MyEMS的安装步骤,重点介绍数据库架构与脚本部署。MyEMS支持MySQL 8.0、MariaDB 10.5及SingleStore 7.0等数据库服务器。通过命令行或客户端工具执行SQL脚本完成安装,包括多个数据库(如myems_billing_db、myems_energy_db等)。此外,提供解决常见问题的方法,如“用户拒绝访问”、“COLLATE设置”和“MAX_ALLOWED_PACKET错误”。注意,不建议在生产环境中将数据库安装于Docker容器内。
359 1
|
API C语言 C++
FFmpeg入门及编译 2
FFmpeg入门及编译
514 0
|
存储 安全 Java
settings.xml详解(很详细读这一篇就够了)
settings.xml是Java项目中用于配置Maven的重要文件,它详细规定了Maven的运行规则和行为。该文件通常位于用户家目录下的.m2文件夹中,或者项目根目录下的.mvn文件夹内。settings.xml中包含了众多配置项,从代理设置、镜像仓库配置,到服务器认证信息、插件组等,均可以在此文件中进行细致定义。通过合理配置settings.xml,我们可以优化Maven的依赖下载速度,保障仓库访问的安全性,甚至实现私有仓库的搭建与管理。深入了解settings.xml的每一项配置,对于提高Maven使用效率、保障项目构建稳定性具有重要意义。因此,无论是Maven初学者还是资深用户,都应仔
17645 4
|
网络协议 Linux 应用服务中间件
linux正则二!
本文档详细介绍了正则表达式及其在 Linux 中的应用,包括基本正则和扩展正则的常用符号,以及如何使用 `grep`、`sed` 和 `awk` 命令进行文本处理。通过丰富的实例和练习,帮助读者掌握正则表达式的使用方法,提高文本处理能力。文档还涵盖了实际工作中常见的需求,如排除配置文件中的注释行、查找进程、提取 IP 地址等,使读者能够将所学知识应用于实际场景。
345 0
linux正则二!
|
关系型数据库 PostgreSQL
PostgreSQL如何删除不使用的xlog文件
PostgreSQL如何删除不使用的xlog文件
503 0
|
架构师 测试技术
缺陷趋势分析
本文详细解析了累积缺陷发现统计及其在软件测试中的应用,探讨了理想情况下的凹凸曲线变化规律以及不同拐点出现时可能的问题,并提出了相应的调整策略。此外,还讨论了如何判断缺陷收敛及不收敛的情况,并给出了具体对策。这对于软件测试人员来说具有很高的参考价值。
447 3