word2vec python使用

简介: (1)安装gensim pip install --upgrade setuptoolspip install gensimsudo pip install pattern (2)使用上次训练好的词向量vectors.bin vectors.bin 的生成参考http://blog.csdn.net/u013378306/article/details/54

(1)安装gensim

pip install  --upgrade setuptools
pip install gensim

sudo pip install pattern


 

(2)使用上次训练好的词向量vectors.bin

vectors.bin 的生成参考http://blog.csdn.net/u013378306/article/details/54616829

# -*- coding: utf-8 -*-
from gensim.models.word2vec import  Word2Vec
model=Word2Vec.load_word2vec_format("/home/lhy/data/word2vec/w2v/trunk/vectors.bin",binary=True);

#输出词good的向量
print model["good"]

#找出 woman king积极影响,man消极影响的词,按顺序5个
ll=model.most_similar(positive=['woman','king'],negative=['man'],topn=5);
print ll;

#good ,bad的余弦相似度
sim1 = model.similarity(u'good', u'bad')
print sim1
# 两个列表的 余弦相似度
list1 = [u'good', u'bad']
list2 = [u'red',u'good']
list_sim1 =  model.n_similarity(list1, list2)
print list_sim1

#找出其中一个不同于其他类的词
list = [u'good', u'bad', u'her', u'greet']
print model.doesnt_match(list)





目录
相关文章
|
XML 关系型数据库 MySQL
python将word(doc或docx)的内容导入mysql数据库
用python先把doc文件转换成docx文件(这一步也可以不要后续会说明),然后读取docx的文件并另存为htm格式的文件(上一步可以直接把doc文件另存为htm),python根据bs4获取p标签里的内容,如果段落中有图片则保存图片。(图片在word文档中的位置可以很好的还原到生成的数据库内容) 我见网上有把docx压缩后解压获取图片的,然后根据在根据xml来读取图片的位置,我觉得比较繁琐。用docx模块读取段落的时候还需要是不是判断段落中有分页等,然而转成htm之后就不用判断那么多直接判断段落里的样式或者图片等就可以了。
400 1
|
7月前
|
XML 数据格式 Python
从手动编辑到代码生成:Python 助你高效创建 Word 文档
本文介绍如何用Python实现Word文档自动化生成,结合python-docx、openpyxl和matplotlib库,高效完成报告撰写、数据插入与图表生成,大幅提升办公效率,降低格式错误,实现数据驱动的文档管理。
999 2
|
10月前
|
XML Linux 区块链
Python提取Word表格数据教程(含.doc/.docx)
本文介绍了使用LibreOffice和python-docx库处理DOC文档表格的方法。首先需安装LibreOffice进行DOC到DOCX的格式转换,然后通过python-docx读取和修改表格数据。文中提供了详细的代码示例,包括格式转换函数、表格读取函数以及修改保存功能。该方法适用于Windows和Linux系统,解决了老旧DOC格式文档的处理难题,为需要处理历史文档的用户提供了实用解决方案。
1181 1
|
10月前
|
Python
Python 办公实战:用 python-docx 自动生成 Word 文档
本文详解如何使用 python-docx 库实现 Word 文档自动化生成,涵盖环境搭建、文档创建、格式设置、表格与图片处理、模板填充、批量生成及性能优化等实战技巧,助你高效完成办公场景中的文档自动化任务。
2282 1
|
9月前
|
监控 Linux 数据安全/隐私保护
Python实现Word转PDF全攻略:从入门到实战
在数字化办公中,Python实现Word转PDF自动化,可大幅提升处理效率,解决格式兼容问题。本文详解五种主流方案,包括跨平台的docx2pdf、Windows原生的pywin32、服务器部署首选的LibreOffice命令行、企业级的Aspose.Words,以及轻量级的python-docx+pdfkit组合。每种方案均提供核心代码与适用场景,并涵盖中文字体处理、表格优化、批量进度监控等实用技巧,助力高效办公自动化。
1894 0
|
Python
办公自动化-Python如何提取Word标题并保存到Excel中?
办公自动化-Python如何提取Word标题并保存到Excel中?
386 2
|
Linux Python Windows
Python PDF文件转Word格式,只需要3秒(附打包)
Python PDF文件转Word格式,只需要3秒(附打包)
607 3
Python PDF文件转Word格式,只需要3秒(附打包)
|
人工智能 开发者 Python
python读取word文档 | AI应用开发
在RAG系统中,构建知识库时需读取多种外部文档,其中Word文档较为常见。本文介绍如何使用`python-docx`库读取Word文档(.docx格式)中的标题、段落、表格和图片等内容。首先通过`pip install python-docx`安装库,然后利用提供的接口提取所需信息。尽管该库功能强大,但在识别标题样式时需自定义逻辑,并且仅提供图片的URI而非直接加载。示例代码展示了读取文本、识别标题、读取表格及获取图片URI的方法。【10月更文挑战第2天】
1347 2
|
XML 存储 数据格式
使用Python的zipfile模块巧解Word批量生成问题
通过以上步骤,我们得到了填充了特定数据的 Word 文档。这个过程可以通过循环对多个数据集重复执行,从而实现批量生成多个 Word 文档的目标。
342 5
|
Python
Python——将PPT和Word转为PDF文件
Python——将PPT和Word转为PDF文件
456 1

推荐镜像

更多