文档:https://github.com/fxsjy/jieba
安装
pip install jieba
分词
cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False) # 参数: sentence 需要分词的字符串; cut_all 参数用来控制是否采用全模式; HMM 参数用来控制是否使用 HMM 模型; use_paddle 参数用来控制是否使用paddle模式下的分词模式 切出了词典中没有的词语,效果不理想,可以关闭新词发现 HMM=False
自定义词典
格式:
词语、词频(可省略)、词性(可省略)
示例 user-dict.txt
创新办 3 i 云计算 5 凱特琳 nz 台中
载入词典
# 载入词典 jieba.load_userdict(file_name)
修改词典
# 动态修改词典 add_word(word, freq=None, tag=None) del_word(word) # 调节单个词语的词频 suggest_freq(segment, tune=True)
改变主词典的路径
# 加载自定义词典 jieba_token = jieba.Tokenizer(dictionary='user-dict.txt') # 或者 手动初始化 jieba.initialize(dictionary='user-dict.txt') # 或者 改变主词典的路径 jieba.set_dictionary('user-dict.txt')