What is jieba?-阿里云开发者社区

What is jieba?

2023-08-06 135

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： jieba 是 Python 的一个分词包。它提供的中文分词效果很好,是目前中文分词的首选。

jieba 是 Python 的一个分词包。它提供的中文分词效果很好,是目前中文分词的首选。

What is jieba?

jieba 是基于 Python 的中文分词模块。功能主要包括:

提供中文分词功能,包括:

具有很高的精度和间接性
支持用户自定义词典
支持多核分词模式(提高速度)

提供相似字符串的检索功能
支持词性标注:将分词结果标记为名词、动词等词性。

使用

python

Copy

import jieba
text = "我来到北京清华大学"
result = jieba.cut(text)
print('/ '.join(result)) # 我/ 来到/ 北京/ 清华大学
jieba.add_word("清华") # 添加用户词典
result = jieba.cut(text)
print('/ '.join(result)) # 我/ 来到/ 清华/ 大学

可以通过jieba.cut进行分词,或者jieba.lcut进行左下角分词。

优点

分词效果好,能很好处理人名、地名等实体名称
提供用户字典功能,可以自定义分词
支持多核分词,提高分词速度
项目活跃,不断有更新

结论

jieba 是处理中文分词任务的首选。主要优点在于:

高精度
便捷易用
用户词典函数强大
模块活跃

#### jieba库词性对照表：

- a 形容词

- ad 副形词

- ag 形容词性语素

- an 名形词

- b 区别词

- c 连词

- d 副词

- df

- dg 副语素

- e 叹词

- f 方位词

- g 语素

- h 前接成分

- i 成语

- j 简称略称

- k 后接成分

- l 习用语

- m 数词

- mg

- mq 数量词

- n 名词

- ng 名词性语素

- nr 人名

- nrfg

- nrt

- ns 地名

- nt 机构团体名

- nz 其他专名

- o 拟声词

- p 介词

- q 量词

- r 代词

- rg 代词性语素

- rr 人称代词

- rz 指示代词

- s 处所词

- t 时间词

- tg 时语素

- u 助词

- ud 结构助词得

- ug 时态助词

- uj 结构助词的

- ul 时态助词了

- uv 结构助词地

- uz 时态助词着

- v 动词

- vd 副动词

- vg 动词性语素

- vi 不及物动词

- vn 名动词

- vq

- x 非语素词（包含标点符号）

- y 语气词

- z 状态词

- zg

以下是学习和使用jieba分词库的一些推荐资料:

首先是官方提供的资料:

jieba Github仓库:包含文档、代码、用例等
jieba 用户手册:详细介绍各种用法和参数
jieba 进阶手册:介绍词性标注、自动分词等功能
jieba API参考:详细介绍所有API函数的用法

除了官方资料,还可以查阅:

相关中文分词技术的介绍。这可以帮助理解jieba内部实现。
使用jieba的案例。可以学习实际项目如何使用jieba解决问题。
教程和博客文章。可以了解一些难点问题和心得体会。

具体可以学习如何:

安装并导入jieba模块
使用基本分词API进行中文分词
添加并使用用户词典
利用多进程加速分词速度
结合词性标注、TF-IDF等模型
解决边界和自定义词怎么加入词典的问题

总的来说,以项目驱动的方式来学习和使用jieba:

阅读理论知识
参考官方文档
查看实际应用案例
常见问题解决方案

What is jieba?

What is jieba?

使用

优点

结论

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

What is jieba?

What is jieba?

使用

优点

结论

热门文章

最新文章

相关电子书