gensim的简介
Gensim是一个用于主题建模、文档索引和大型语料库相似检索的Python库。目标受众是自然语言处理(NLP)和信息检索(IR)社区。
Gensim是一个免费的Python库,用于从文档中自动提取语义主题,尽可能高效(计算机方面)和无痛苦(人类方面)。GeNSIM被设计成处理原始的、非结构化的数字文本(“纯文本”)。Gensim中的算法,如Word2Vec、FastText、潜在语义分析(LSI、LSA、参见LsiModel)、潜在Dirichlet分配(LDA、参见LdaModel)等,通过检查训练文档语料库中的统计共现模式,自动发现文档的语义结构。NTS。这些算法是无监督的,这意味着没有人输入是必要的-你只需要一个纯文本文档的语料库。一旦找到这些统计模式,任何纯文本文档(语句、短语、单词…)都可以在新的语义表示中简洁地表达,并查询与其他文档(单词、短语…)的主题相似性。
pypi gensimhttps://pypi.org/project/gensim/
Gensim API Referencehttps://radimrehurek.com/gensim/apiref.html
gensim的安装
pip install gensim
gensim的使用方法
trained_model.most_similar(positive=['woman','king'], negative=['man'])
[('queen', 0.50882536), ...]