What is jieba?

简介: jieba 是 Python 的一个分词包。它提供的中文分词效果很好,是目前中文分词的首选。

jieba 是 Python 的一个分词包。它提供的中文分词效果很好,是目前中文分词的首选。

What is jieba?

jieba 是基于 Python 的中文分词模块。功能主要包括:

  • 提供中文分词功能,包括:
  1. 具有很高的精度和间接性
  2. 支持用户自定义词典
  3. 支持多核分词模式(提高速度)
  • 提供相似字符串的检索功能
  • 支持词性标注:将分词结果标记为名词、动词等词性。

使用

python

Copy

import jieba
text = "我来到北京清华大学"
result = jieba.cut(text)
print('/ '.join(result)) # 我/ 来到/ 北京/ 清华大学
jieba.add_word("清华") # 添加用户词典
result = jieba.cut(text)
print('/ '.join(result)) # 我/ 来到/ 清华/ 大学

可以通过jieba.cut进行分词,或者jieba.lcut进行左下角分词。

优点

  • 分词效果好,能很好处理人名、地名等实体名称
  • 提供用户字典功能,可以自定义分词
  • 支持多核分词,提高分词速度
  • 项目活跃,不断有更新

结论

jieba 是处理中文分词任务的首选。主要优点在于:

  • 高精度
  • 便捷易用
  • 用户词典函数强大
  • 模块活跃








#### jieba库词性对照表:

- a 形容词  

- ad 副形词  

- ag 形容词性语素  

- an 名形词  

- b 区别词  

- c 连词  

- d 副词  

- df    

- dg 副语素  

- e 叹词  

- f 方位词  

- g 语素  

- h 前接成分  

- i 成语  

- j 简称略称  

- k 后接成分  

- l 习用语  

- m 数词  

- mg  

- mq 数量词  

- n 名词  

- ng 名词性语素  

- nr 人名  

- nrfg    

- nrt  

- ns 地名  

- nt 机构团体名  

- nz 其他专名  

- o 拟声词  

- p 介词  

- q 量词  

- r 代词  

- rg 代词性语素  

- rr 人称代词  

- rz 指示代词  

- s 处所词  

- t 时间词  

- tg 时语素  

- u 助词  

- ud 结构助词 得

- ug 时态助词

- uj 结构助词 的

- ul 时态助词 了

- uv 结构助词 地

- uz 时态助词 着

- v 动词  

- vd 副动词

- vg 动词性语素  

- vi 不及物动词  

- vn 名动词  

- vq  

- x 非语素词(包含标点符号)

- y 语气词  

- z 状态词  

- zg



以下是学习和使用jieba分词库的一些推荐资料:

首先是官方提供的资料:

除了官方资料,还可以查阅:

  • 相关中文分词技术的介绍。这可以帮助理解jieba内部实现。
  • 使用jieba的案例。可以学习实际项目如何使用jieba解决问题。
  • 教程和博客文章。可以了解一些难点问题和心得体会。

具体可以学习如何:

  • 安装并导入jieba模块
  • 使用基本分词API进行中文分词
  • 添加并使用用户词典
  • 利用多进程加速分词速度
  • 结合词性标注、TF-IDF等模型
  • 解决边界和自定义词怎么加入词典的问题

总的来说,以项目驱动的方式来学习和使用jieba:

  • 阅读理论知识
  • 参考官方文档
  • 查看实际应用案例
  • 常见问题解决方案
目录
相关文章
|
5月前
|
自然语言处理 Rust 搜索推荐
jieba分词-Python中文分词领域的佼佼者
jieba分词-Python中文分词领域的佼佼者
40 1
|
5月前
|
机器学习/深度学习 自然语言处理 Java
HanLP — 词性标注
HanLP — 词性标注
55 1
|
自然语言处理 搜索推荐 算法
中文分词利器-jieba
中文分词利器-jieba
|
自然语言处理 BI
|
自然语言处理
pkuseg 和 jieba 分词对比测试,结果出乎意料...
pkuseg 和 jieba 分词对比测试,结果出乎意料...
|
Python
利用jieba库进行词频统计
利用jieba库进行词频统计
182 0
|
自然语言处理 搜索推荐
jieba分词有哪些模式,分别详细介绍
jieba分词有哪些模式,分别详细介绍
1238 0
|
机器学习/深度学习 自然语言处理 算法
Python数据分析(4):jieba分词详解
Python数据分析(4):jieba分词详解
1142 0
Python数据分析(4):jieba分词详解
NLTK词性标注
本文实现基于NLTK的布朗语料库词性标注任务。
89 0
|
机器学习/深度学习 人工智能 自然语言处理
中文分词工具 MiNLP-Tokenizer
中文分词工具 MiNLP-Tokenizer
432 0
中文分词工具 MiNLP-Tokenizer

热门文章

最新文章