Python:jieba中文分词的使用笔记

简介: Python:jieba中文分词的使用笔记

文档:https://github.com/fxsjy/jieba

安装

pip install jieba

分词

cut/lcut(self, sentence, cut_all=False, HMM=True, use_paddle=False)
# 参数:
sentence   需要分词的字符串;
cut_all    参数用来控制是否采用全模式;
HMM        参数用来控制是否使用 HMM 模型;
use_paddle 参数用来控制是否使用paddle模式下的分词模式
切出了词典中没有的词语,效果不理想,可以关闭新词发现 HMM=False

自定义词典

格式:

词语、词频(可省略)、词性(可省略)

示例 user-dict.txt

创新办 3 i
云计算 5
凱特琳 nz
台中

载入词典

# 载入词典
jieba.load_userdict(file_name)

修改词典

# 动态修改词典
add_word(word, freq=None, tag=None)
del_word(word)
# 调节单个词语的词频
suggest_freq(segment, tune=True)

改变主词典的路径

# 加载自定义词典
jieba_token = jieba.Tokenizer(dictionary='user-dict.txt')
# 或者 手动初始化
jieba.initialize(dictionary='user-dict.txt')
# 或者 改变主词典的路径
jieba.set_dictionary('user-dict.txt')
相关文章
|
3月前
|
Python
小笔记:Python 使用字符串调用函数
小笔记:Python 使用字符串调用函数
41 0
|
3月前
|
JavaScript 前端开发 测试技术
[小笔记]TypeScript/JavaScript模拟Python中的Range函数
[小笔记]TypeScript/JavaScript模拟Python中的Range函数
27 0
|
1月前
|
数据采集 存储 自然语言处理
手把手教会你使用Python进行jieba分词
手把手教会你使用Python进行jieba分词
55 0
|
3月前
|
JavaScript 前端开发 测试技术
[小笔记]TypeScript/JavaScript模拟Python中的zip(不使用map)
[小笔记]TypeScript/JavaScript模拟Python中的zip(不使用map)
19 0
|
3月前
|
C# Python
C# 笔记3 - 重载一系列像python那样的print()方法
C# 笔记3 - 重载一系列像python那样的print()方法
27 1
|
3月前
|
关系型数据库 MySQL 数据库
MySQL命令笔记+Python案例
MySQL命令笔记+Python案例
47 0
|
3月前
|
存储 Python
Python:核心知识点整理大全16-笔记-2
Python:核心知识点整理大全16-笔记
16 0
|
3月前
|
存储 Python
Python:核心知识点整理大全16-笔记-1
Python:核心知识点整理大全16-笔记
26 0
|
3月前
|
Python
python笔记
python笔记
|
3月前
|
前端开发 API 开发工具
Python实现post请求小红书笔记详情数据接口
Python实现post请求小红书笔记详情数据接口
73 1

热门文章

最新文章