#TODO jieba 一个自然语言处理工具包 ,除了jieba还有 HanLP 和 LTK import jieba #TODO 词、句 匹配 #全模式 seg_list=jieba.cut("我喜欢吃酸菜鱼",cut_all=True) print("全模式: "+"/".join(seg_list)) seg_list_1=jieba.cut("物联网是大势所趋",cut_all=False) print(seg_list_1) print("全模式: "+"/".join(seg_list_1)) #精准模式,如果此处 cut 里面没有给出 cut_all=False,默认是False的 seg_list1=jieba.cut("我喜欢吃酸菜鱼",cut_all=False) print("精准模式: "+"/".join(seg_list1)) # TODO seg_list1_1=jieba.cut("物联网是大势所趋") print("精准模式: "+"/".join(seg_list1_1)) #物/联网 # TODO 我们可以发现物联网分成了 物/联网,那是因为字典里面没有物联网这个词,我们加载一下自定义字典就可以了 jieba.load_userdict("./data/user_dic.txt") seg_list1_1=jieba.cut("物联网是大势所趋") print("重新加载过字典") print("精准模式: "+"/".join(seg_list1_1)) #搜素引擎模式 seg_list2=jieba.cut_for_search("我喜欢吃酸菜鱼") print("引擎模式: "+",".join(seg_list2))
由上面的代码我们可以发现jieba语料库不是特别完善,尤其是**物理物联网是大势所趋**,其中**物联网**被分成了**物/联网**,但我们重新加载语料库(字典)时我们发现这次并没有把**物联网**分开,达到了预期效果。
user_dic.txt 大波浪 10 jieba分词 n 金融字典 7 物联网 5 n
最后一行为例 for example :5是出现的频次 ,n 是名词的属性