🏔三、 使用语法
🐒1. 对词组的基本操作
添加
str = "你好呀,我叫李华!多多关照!" jieba.add_word("你") print(jieba.lcut(str))
删除
str = "你好呀,我叫李华!多多关照!" jieba.del_word("李华") print(jieba.lcut(str))
调整词出现的频率
str = "你好呀,我叫李华!多多关照!" jieba.suggest_freq(("李", "华"), True) print(jieba.lcut(str))
🐒 2. 关键字提取
TFIDF算法
import jieba.analyse # 导包 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) jieba.analyse.TFIDF(idf_path=None) # 创建一个新的 TFIDF 实例,idf_path是指指定 IDF 频率文件的路径
参数:
sentence:要提取的文本
topK:返回多少个具有最高TF/IDF权重的关键字。默认值为 20
withWeight:是否返回关键字的TF/IDF权重。默认为假
allowPOS:过滤包含POS(词性)的单词。空无过滤,可以选择['ns', 'n', 'vn', 'v','nr']
TextRank算法
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) # 有默认词性 jieba.analyse.TextRank() # 新建自定义 TextRank 实例
🐒3. 词性标注
jieba.posseg.POSTokenizer(tokenizer=None)
新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器
jieba.posseg.dt 为默认词性标注分词器
import jieba.posseg str = "你好呀,我叫李华!多多关照!" pt = jieba.posseg.POSTokenizer() print(pt.lcut(str)) # 得到 pair键值对,使用遍历取值 # print(jieba.posseg.cut(str)) # 作用一样 for i, k in ps.lcut(str): print(i, k)
🐒4. Tokenize:返回词语在原文的起止位置
- 注意,输入参数只接受 unicode
默认模式
result = jieba.tokenize(u'永和服装饰品有限公司') for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
搜索模式
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search') for tk in result: print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
如上文所示,关于Pyhton中文分词库——jieba库的介绍,暂时结束,如果后续学习到了新的内容,会再次进行介绍!各位大佬们,如果发现文章内容错误,希望可以指出,评论或私信都可🙂
部分内容来源:GitHub - fxsjy/jieba: 结巴中文分词