Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

简介: Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

SnowNLP的简介


        snowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。


snownlp主要可以进行中文分词(算法是Character-Based Generative Model)、词性标注、情感分析、文本分类(原理是朴素贝叶斯)、转换拼音、繁体转简体、提取文本关键词(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官网还有更多关于该库的介绍。


中文分词(Character-Based Generative Model)

词性标注(TnT 3-gram 隐马)

情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)

文本分类(Naive Bayes)

转换成拼音(Trie树实现的最大匹配)

繁体转简体(Trie树实现的最大匹配)

提取文本关键词(TextRank算法)

提取文本摘要(TextRank算法)

tf,idf

Tokenization(分割成句子)

文本相似(BM25)

支持python3(感谢erning)

github:SnowNLP: Simplified Chinese Text Processing

snownlp pypi



SnowNLP的安装


pip install snownlp

image.png

image.png



SnowNLP的使用方法

image.png



文章推荐


NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→情感分析→测试)



关于训练


现在提供训练的包括分词,词性标注,情感分析,而且都提供了我用来训练的原始文件 以分词为例 分词在snownlp/seg目录下


from snownlp import seg

seg.train('data.txt')

seg.save('seg.marshal')

# from snownlp import tag

# tag.train('199801.txt')

# tag.save('tag.marshal')

# from snownlp import sentiment

# sentiment.train('neg.txt', 'pos.txt')

# sentiment.save('sentiment.marshal')




相关文章
|
XML JSON JavaScript
Py之demjson:Python库之demjson的简介、安装、使用方法详细攻略
Py之demjson:Python库之demjson的简介、安装、使用方法详细攻略
Py之demjson:Python库之demjson的简介、安装、使用方法详细攻略
|
JavaScript 前端开发 API
Py之dominate:python的dominate库的简介、安装、使用方法之详细攻略
Py之dominate:python的dominate库的简介、安装、使用方法之详细攻略
Py之dominate:python的dominate库的简介、安装、使用方法之详细攻略
|
人工智能 自然语言处理 供应链
常用Python中文分词工具的使用方法
本文将介绍jieba、HanLP、LAC、THULAC、NLPIR、spacy、stanfordcorenlp、pkuseg等多种常用的Python中文分词工具的简单使用方法。
常用Python中文分词工具的使用方法
|
数据可视化 API 计算机视觉
Py之pycocotools:pycocotools库的简介、安装、使用方法之详细攻略续篇
Py之pycocotools:pycocotools库的简介、安装、使用方法之详细攻略续篇
|
机器学习/深度学习 算法 TensorFlow
Py之imblearn:imblearn/imbalanced-learn库的简介、安装、使用方法之详细攻略
Py之imblearn:imblearn/imbalanced-learn库的简介、安装、使用方法之详细攻略
Py之imblearn:imblearn/imbalanced-learn库的简介、安装、使用方法之详细攻略
|
JSON NoSQL 数据挖掘
Python之tushare:tushare库的简介、安装、使用方法之详细攻略
Python之tushare:tushare库的简介、安装、使用方法之详细攻略
Python之tushare:tushare库的简介、安装、使用方法之详细攻略
|
自然语言处理 数据挖掘 API
Py之nltk:nltk包的简介、安装、使用方法、代码实现之详细攻略
Py之nltk:nltk包的简介、安装、使用方法、代码实现之详细攻略
Py之nltk:nltk包的简介、安装、使用方法、代码实现之详细攻略
|
机器学习/深度学习 SQL 自然语言处理
Python:pmml格式文件的简介、安装、使用方法(利用python将机器学习模型转为Java常用的pmml格式文件)之详细攻略
Python:pmml格式文件的简介、安装、使用方法(利用python将机器学习模型转为Java常用的pmml格式文件)之详细攻略
|
XML JavaScript 前端开发
Py之pyquery:pyquery的简介、安装、使用方法之详细攻略
Py之pyquery:pyquery的简介、安装、使用方法之详细攻略
Py之pyquery:pyquery的简介、安装、使用方法之详细攻略
|
自然语言处理 算法 API
Py之gensim:gensim的简介、安装、使用方法之详细攻略
Py之gensim:gensim的简介、安装、使用方法之详细攻略
Py之gensim:gensim的简介、安装、使用方法之详细攻略