一 结巴分词的安装
pip3 install jieba
二 结巴分词的主要功能
- jieba.cut:该方法接受三个输入参数:
参数1:需要分词的字符串;
参数2:cut_all参数用来控制是否采用全模式,默认为精确模式;cut_all=True 全模式
//代码效果参考:https://v.youku.com/v_show/id_XNjQwNjgyNjQ5Mg==.html
cut_all=false 精确(默认)模式
参数3:HMM参数用来控制是否适用HMM模型
- jieba.cut_for_search:该方法接受两个参数:
参数1:需要分词的字符串;
参数2:是否使用HMM模型,
该方法适用于搜索引擎构建倒排索引的分词,粒度比较细。
- jieba.cut 以及jieba.cut_for_search
返回的结构都是可以得到的generator(生成器)
- jieb.lcut 以及 jieba.lcut_for_search
直接返回list
5.jieba.Tokenizer(dictionary=DEFUALT_DICT)
新建自定义分词器,
可用于同时使用不同字典,
jieba.dt为默认分词器,所有全局分词相关函数都是该分词器的映射。
三 结巴分词的三种模式
import jieba
text='赵丽颖主演的正午阳光剧,知否知否应是绿肥红瘦'
1 全模式 cut_all=True
seq_list=jieba.cut(text,cut_all=True)
print(seq_list) #
//代码效果参考:https://v.youku.com/v_show/id_XNjQwNjgyNjUwOA==.html
print(list(seq_list))
'''
['赵', '丽', '颖', '主演', '的', '正午', '阳光', '剧', '', '', '知', '否', '知', '否', '应', '是', '绿肥', '绿肥红瘦']
'''
2 精确模式 (默认模式) cut_all =False
02精确模式
seq_list=jieba.cut(text,cut_all=False)
print(list(seq_list))
'''
['赵丽颖', '主演', '的', '正午', '阳光', '剧', ',', '知否', '知否', '应', '是', '绿肥红瘦']
'''
3 搜索引擎模式 cut_for_search
seq_list=jieba.cut_for_search(text,)
print(list(seq_list))
'''
['赵丽颖', '主演', '的', '正午', '阳光', '剧', ',', '知否', '知否', '应', '是', '绿肥', '绿肥红瘦']
'''
四 自定义分词器(jieba.Tokenizer)
1 创建词典内容的格式
一个词语占一行(分三部分)
格式: 词语 词频 词性
如:张三 5
李四 10 eng