Python——jieba优秀的中文分词库（基础知识+实例）下-阿里云开发者社区

Python——jieba优秀的中文分词库（基础知识+实例）下

2023-01-17 211

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python——jieba优秀的中文分词库（基础知识+实例）下

🏔三、使用语法

🐒1. 对词组的基本操作

添加

str = "你好呀，我叫李华！多多关照！"
jieba.add_word("你")
print(jieba.lcut(str))

删除

str = "你好呀，我叫李华！多多关照！"
jieba.del_word("李华")
print(jieba.lcut(str))

调整词出现的频率

str = "你好呀，我叫李华！多多关照！"
jieba.suggest_freq(("李", "华"), True)
print(jieba.lcut(str))

🐒 2. 关键字提取

TFIDF算法

import jieba.analyse # 导包
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,
allowPOS=())
jieba.analyse.TFIDF(idf_path=None) # 创建一个新的 TFIDF 实例，idf_path是指指定 IDF 频率文件的路径

参数：

sentence：要提取的文本

topK：返回多少个具有最高TF/IDF权重的关键字。默认值为 20

withWeight：是否返回关键字的TF/IDF权重。默认为假

allowPOS：过滤包含POS（词性）的单词。空无过滤，可以选择['ns', 'n', 'vn', 'v','nr']

TextRank算法

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) # 有默认词性
jieba.analyse.TextRank() # 新建自定义 TextRank 实例

🐒3. 词性标注

jieba.posseg.POSTokenizer(tokenizer=None)

新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器

jieba.posseg.dt 为默认词性标注分词器

import jieba.posseg
str = "你好呀，我叫李华！多多关照！"
pt = jieba.posseg.POSTokenizer()
print(pt.lcut(str)) # 得到 pair键值对，使用遍历取值
# print(jieba.posseg.cut(str)) # 作用一样
for i, k in ps.lcut(str):
print(i, k)

🐒4. Tokenize：返回词语在原文的起止位置

注意，输入参数只接受 unicode

默认模式

result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

搜索模式

result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

如上文所示，关于Pyhton中文分词库——jieba库的介绍，暂时结束，如果后续学习到了新的内容，会再次进行介绍！各位大佬们，如果发现文章内容错误，希望可以指出，评论或私信都可🙂

部分内容来源：GitHub - fxsjy/jieba: 结巴中文分词

Python——jieba优秀的中文分词库（基础知识+实例）下

🏔三、使用语法

🐒1. 对词组的基本操作

🐒 2. 关键字提取

🐒3. 词性标注

🐒4. Tokenize：返回词语在原文的起止位置

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python——jieba优秀的中文分词库（基础知识+实例）下

🏔三、 使用语法

🐒1. 对词组的基本操作

🐒 2. 关键字提取

🐒3. 词性标注

🐒4. Tokenize：返回词语在原文的起止位置

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

🏔三、使用语法