jieba 是 Python 的一个分词包。它提供的中文分词效果很好,是目前中文分词的首选。
What is jieba?
jieba 是基于 Python 的中文分词模块。功能主要包括:
- 提供中文分词功能,包括:
- 具有很高的精度和间接性
- 支持用户自定义词典
- 支持多核分词模式(提高速度)
- 提供相似字符串的检索功能
- 支持词性标注:将分词结果标记为名词、动词等词性。
使用
python
Copy
import jieba text = "我来到北京清华大学" result = jieba.cut(text) print('/ '.join(result)) # 我/ 来到/ 北京/ 清华大学 jieba.add_word("清华") # 添加用户词典 result = jieba.cut(text) print('/ '.join(result)) # 我/ 来到/ 清华/ 大学
可以通过jieba.cut
进行分词,或者jieba.lcut
进行左下角分词。
优点
- 分词效果好,能很好处理人名、地名等实体名称
- 提供用户字典功能,可以自定义分词
- 支持多核分词,提高分词速度
- 项目活跃,不断有更新
结论
jieba 是处理中文分词任务的首选。主要优点在于:
- 高精度
- 便捷易用
- 用户词典函数强大
- 模块活跃
#### jieba库词性对照表:
- a 形容词
- ad 副形词
- ag 形容词性语素
- an 名形词
- b 区别词
- c 连词
- d 副词
- df
- dg 副语素
- e 叹词
- f 方位词
- g 语素
- h 前接成分
- i 成语
- j 简称略称
- k 后接成分
- l 习用语
- m 数词
- mg
- mq 数量词
- n 名词
- ng 名词性语素
- nr 人名
- nrfg
- nrt
- ns 地名
- nt 机构团体名
- nz 其他专名
- o 拟声词
- p 介词
- q 量词
- r 代词
- rg 代词性语素
- rr 人称代词
- rz 指示代词
- s 处所词
- t 时间词
- tg 时语素
- u 助词
- ud 结构助词 得
- ug 时态助词
- uj 结构助词 的
- ul 时态助词 了
- uv 结构助词 地
- uz 时态助词 着
- v 动词
- vd 副动词
- vg 动词性语素
- vi 不及物动词
- vn 名动词
- vq
- x 非语素词(包含标点符号)
- y 语气词
- z 状态词
- zg
以下是学习和使用jieba分词库的一些推荐资料:
首先是官方提供的资料:
- jieba Github仓库:包含文档、代码、用例等
- jieba 用户手册:详细介绍各种用法和参数
- jieba 进阶手册:介绍词性标注、自动分词等功能
- jieba API参考:详细介绍所有API函数的用法
除了官方资料,还可以查阅:
- 相关中文分词技术的介绍。这可以帮助理解jieba内部实现。
- 使用jieba的案例。可以学习实际项目如何使用jieba解决问题。
- 教程和博客文章。可以了解一些难点问题和心得体会。
具体可以学习如何:
- 安装并导入jieba模块
- 使用基本分词API进行中文分词
- 添加并使用用户词典
- 利用多进程加速分词速度
- 结合词性标注、TF-IDF等模型
- 解决边界和自定义词怎么加入词典的问题
总的来说,以项目驱动的方式来学习和使用jieba:
- 阅读理论知识
- 参考官方文档
- 查看实际应用案例
- 常见问题解决方案