部分常用分词工具使用整理
以下分词工具均能在Python环境中直接调用(排名不分先后)。1、jieba(结巴分词) 免费使用2、HanLP(汉语言处理包) 免费使用3、SnowNLP(中文的类库) 免费使用4、FoolNLTK(中文处理工具包) 免费使用5、Jiagu(甲骨NLP) 免费使用6、pyltp(哈工大语言云) 商用需要付费7、THULAC(清华中文词法分析工具包) 商用需要付费8、NLPIR(汉语分词系统) 付费使用
1、jieba(结巴分词)“结巴”中文分词:做最好的 Python 中文分词组件。
NLP 语料分类不均衡的解决办法
一、Introduction
二、Influence
三、别人的解决办法
数据层面:
算法层面:
四、个人的解决办法
五、Reference
一、Introduction
以前在做情感分类问题都是用sst等等,一些经典的语料,但是当自己要做语料的时候,才发现事情并不是想象的那么简单。