Python:jieba中文分词的使用笔记

简介: Python:jieba中文分词的使用笔记

文档:https://github.com/fxsjy/jieba

安装

pip install jieba

分词

cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False)
# 参数:
sentence   需要分词的字符串;
cut_all    参数用来控制是否采用全模式;
HMM        参数用来控制是否使用 HMM 模型;
use_paddle 参数用来控制是否使用paddle模式下的分词模式
切出了词典中没有的词语,效果不理想,可以关闭新词发现 HMM=False

自定义词典

格式:

词语、词频(可省略)、词性(可省略)

示例 user-dict.txt

创新办 3 i
云计算 5
凱特琳 nz
台中

载入词典

# 载入词典
jieba.load_userdict(file_name)

修改词典

# 动态修改词典
add_word(word, freq=None, tag=None)
del_word(word)
# 调节单个词语的词频
suggest_freq(segment, tune=True)

改变主词典的路径

# 加载自定义词典
jieba_token = jieba.Tokenizer(dictionary='user-dict.txt')
# 或者 手动初始化
jieba.initialize(dictionary='user-dict.txt')
# 或者 改变主词典的路径
jieba.set_dictionary('user-dict.txt')
相关文章
|
26天前
|
搜索推荐 Python
Leecode 101刷题笔记之第五章:和你一起你轻松刷题(Python)
这篇文章是关于LeetCode第101章的刷题笔记,涵盖了多种排序算法的Python实现和两个中等难度的编程练习题的解法。
17 3
|
1月前
|
存储 开发工具 Python
【Python项目】外星人入侵项目笔记
【Python项目】外星人入侵项目笔记
36 3
|
1月前
|
存储 Python
【免费分享编程笔记】Python学习笔记(二)
【免费分享编程笔记】Python学习笔记(二)
39 0
【免费分享编程笔记】Python学习笔记(二)
|
26天前
|
算法 C++ Python
Leecode 101刷题笔记之第四章:和你一起你轻松刷题(Python)
这篇博客是关于LeetCode上使用Python语言解决二分查找问题的刷题笔记,涵盖了从基础到进阶难度的多个题目及其解法。
14 0
|
26天前
|
算法 C++ Python
Leecode 101刷题笔记之第三章:和你一起你轻松刷题(Python)
本文是关于LeetCode算法题的刷题笔记,主要介绍了使用双指针技术解决的一系列算法问题,包括Two Sum II、Merge Sorted Array、Linked List Cycle II等,并提供了详细的题解和Python代码实现。
12 0
|
26天前
|
算法 C++ 索引
Leecode 101刷题笔记之第二章:和你一起你轻松刷题(Python)
本文是关于LeetCode 101刷题笔记的第二章,主要介绍了使用Python解决贪心算法题目的方法和实例。
9 0
|
26天前
|
并行计算 Python
Python错误笔记(一):CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up env
这篇文章讨论了CUDA初始化时出现的未知错误及其解决方案,包括重启系统和安装nvidia-modprobe。
99 0
|
1月前
|
索引 Python
【免费分享编程笔记】Python学习笔记(一)
【免费分享编程笔记】Python学习笔记(一)
37 0
|
3月前
|
Python
【python】】Python 的 queue 模块使用笔记
【python】】Python 的 queue 模块使用笔记
40 0
|
3月前
|
Python
Python笔记9 类
本文是作者的Python复习笔记第九篇,深入探讨了Python中的类和面向对象编程。文中详细解释了如何创建类、实例化对象、定义和使用类方法,以及类的继承、重写方法和嵌套类的使用。此外,还讨论了类模块的导入和导出,包括处理类之间的依赖关系。通过示例代码,文章展示了类在Python编程中的应用和重要性。
27 0