Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

简介: Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略

SnowNLP的简介


        snowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的。


snownlp主要可以进行中文分词(算法是Character-Based Generative Model)、词性标注、情感分析、文本分类(原理是朴素贝叶斯)、转换拼音、繁体转简体、提取文本关键词(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官网还有更多关于该库的介绍。


中文分词(Character-Based Generative Model)

词性标注(TnT 3-gram 隐马)

情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)

文本分类(Naive Bayes)

转换成拼音(Trie树实现的最大匹配)

繁体转简体(Trie树实现的最大匹配)

提取文本关键词(TextRank算法)

提取文本摘要(TextRank算法)

tf,idf

Tokenization(分割成句子)

文本相似(BM25)

支持python3(感谢erning)

github:SnowNLP: Simplified Chinese Text Processing

snownlp pypi



SnowNLP的安装


pip install snownlp

image.png

image.png



SnowNLP的使用方法

image.png



文章推荐


NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→情感分析→测试)



关于训练


现在提供训练的包括分词,词性标注,情感分析,而且都提供了我用来训练的原始文件 以分词为例 分词在snownlp/seg目录下


from snownlp import seg

seg.train('data.txt')

seg.save('seg.marshal')

# from snownlp import tag

# tag.train('199801.txt')

# tag.save('tag.marshal')

# from snownlp import sentiment

# sentiment.train('neg.txt', 'pos.txt')

# sentiment.save('sentiment.marshal')




目录
打赏
0
0
0
0
1042
分享
相关文章
【小白的实战】Python构建中文词云图
还记得之前我们构建英文词云图的实战吗?通过三期的涉及了自定义调参、形状等…… 几乎是可以自定义出自己的心仪词云了。 但关键问题是什么?——咱们是中国人,我们要做中文的词云!
【小白的实战】Python构建中文词云图
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等