问题:运用python中的jieba语句进行分词时,得到的词频统计与word搜索数不一致
原因:cut_all参数设置的问题
>>import jieba
>>seg_list_exact = jieba.cut(data,cut_all = False)
cut_all参数用来选择分词模式;
1.False代表精准模式;当文本中出现“泵送公司”四个字时,如果我们想得到的分词为泵送,但python精准分词时,可能直接将泵送公司切成一个词,而不是切成“泵送”和“公司”,这样就会出现python得到的分词较word搜索出来的词频数少。
2.True代表全模式;当文本中出现“泵送公司”四个字时,python分词时,可以分出“泵送”,“公司”和“泵送公司”三个词出来,这个词频数与word搜索数保持一致。选择全模型切词时,python可能存在不能识别专有名词的情况——词频统计时未能识别统计品牌名“XX”,面对这个问题,我们可以手动添加词,完善字典。
加入语句:
>>jieba.add_word('XX')
如果需要加入的词语很多,则可以利用命令:
#获取自定义词典
jieba.load_userdict("C:/Users/lenovo/Desktop/dict.txt")
txt文件中为所需添加的词语
如果文本中无意义的词语很多,可以手动删除无意义的词,只需加入语句:
remove_words = [u'的', u',',u'和', u'是', u'随着', u'对于' ]#自定义去除词库
这样便可以完美的解决运用jieba分词中出现的问题。