有些句子中出现了一些词语,但是被分开为两个单独的字,虽然这样可以调整词库,只需要重新加载自定义的词库即可,除此之外我们还可以用 ”调整词频来解决这个问题”
import jieba import jieba.posseg as pg # 词性标注的包 # 加载自定义字典 jieba.load_userdict("./data/user_dic.txt") # 添加词 jieba.add_word("石墨烯") jieba.add_word("凯特琳") # 删除词 jieba.del_word("自定义词") # 元组类型测试数据 test_sent = ( "李小福是创新办主任也是云计算方面专家;什么是八一双鹿\n" "例如我输入一个带“韩玉鉴赏”的标题,在自定义词库中也增加了此词为N类\n" "[台中]报道指出,mac上可分为[石墨烯];此时又可以分出来凯特琳了。\n" "物联网" ) words = jieba.cut(test_sent) print("使用/把分词结果分开: " + "/".join(words)) print("++" * 120) # 用于此行词性标注 result = pg.cut(test_sent) # 使用for循环把分出的词及其词性用/分开,并添加,和空格 for x in result: print(x.word, "/", x.flag, ",", end=' ') print("\n") print("++" * 120) # 对英文进行分割 terms = jieba.cut("How to easy_install jieba library") print("/".join(terms)) #对英文和汉字进行分割 terms_1=jieba.cut("python 是一门很好的语言") print("/".join(terms_1)) print("++" * 120) #测试词频 test_terms=[ ("我们中出了一个叛徒",('中','出')) ] for sent ,seg in test_terms: print("/".join(jieba.cut(sent,HMM=False))) words=''.join(seg) print('%s Before :%s ,After :%s'%(words,jieba.get_FREQ(words),jieba.suggest_freq(words,True))) print('/'.join(jieba.cut(sent,HMM=False)))