jieba分词-Python中文分词领域的佼佼者

简介: jieba分词-Python中文分词领域的佼佼者

1. jieba的江湖地位

NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件。

“最好的”这三个字可不是空穴来风,jieba在开源社区的受欢迎程度非常之高。

jieba项目目前的github star数已经达到24k,其他热门分词组件像HanLP star数20k、ansj_seg star数5.6k、pkuseg-python star数5k。可见jieba已经稳居中文分词领域c位。

jieba的主要功能是做中文分词,可以进行简单分词、并行分词、命令行分词,当然它的功能不限于此,目前还支持关键词提取、词性标注、词位置查询等。

更让人愉悦的是jieba虽然立足于python,但同样支持其他语言和平台,诸如:C++、Go、R、Rust、Node.js、PHP、 iOS、Android等。所以jieba能满足各类开发者的需求。

2. 如何学jieba

据我所知,jieba最靠谱的文档是github项目的readme,因为它似乎还没有独立的使用文档。但由于使用起来简单,看readme也能快速上手。https://github.com/fxsjy/jieba

国内各大博客有关于jieba的使用教程,但需要甄别下准确度和时效性,因为jieba项目一直在更新。

当然本文不是纯粹的种草文章,会简单介绍下jieba的使用方法。

3. 安装jieba

jieba支持pip或者conda安装,直接在命令行执行:

pip install jieba

不出意外,应该能很快安装好。 你也可以下载jieba安装包再安装,jieba的pypi地址:http://pypi.python.org/pypi/jieba/

4. 分词初体验

分词是NLP处理的第一步,也是最基本的任务,分词的好坏直接决定了后面语义分析的精准度。

所谓分词就是将一段表述里的词汇进行分解,比如“我爱中国”,分解后有三个词:我、爱、中国,词性分别是名词、动词、名词。

jieba库中用于分词的方法有三个:

jieba.cut

给定中文字符串,分解后返回一个迭代器,需要用for循环访问。

参数解释:

「strs」:需要分词的字符串;

「cut_all」:用来控制是否采用全模式;

「HMM」:用来控制是否使用 HMM 模型;

「use_paddle」:用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;

这里区分全模式和精确模式,举个例子先看看区别:

# 全模式
seg_list = jieba.cut("中国上海是一座美丽的国际性大都市", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  
# 返回结果
Full Mode: 中国/ 上海/ 是/ 一座/ 美丽/ 的/ 国际/ 国际性/ 大都/ 大都市/ 都市
# 精确模式
seg_list = jieba.cut("中国上海是一座美丽的国际性大都市", cut_all=False)
print("Full Mode: " + "/ ".join(seg_list))  
# 返回结果
Default Mode: 中国/ 上海/ 是/ 一座/ 美丽/ 的/ 国际性/ 大都市

可以看到,全模式把句子中所有的可以成词的词语都扫描出来, 会出现一词多用、一词多意。精确模式将句子最精确的切分开,每个词都只有一种含义。

jieba.cut方法默认是精确模式。

还有一个参数控制paddle模式,会更加精确,使用这个的前提是你需要先安装paddlepaddle-tiny。

安装命令:

pip install paddlepaddle-tiny==1.6.1

详情可以去官网看下,这里不举例。

jieba.cut_for_search

该方法和cut一样,分解后返回一个迭代器,需要用for循环访问。不过它是搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

参数解释:

「strs」:需要分词的字符串;

「HMM」:是否使用 HMM 模型,默认值为 True。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。

# 搜索引擎模式
seg_list = jieba.cut_for_search("中国上海是一座美丽的国际性大都市,拥有复旦大学、上海交通大学等知名高等学府")  
print(", ".join(seg_list))
# 返回结果
Search Mode: 中国, 上海, 是, 一座, 美丽, 的, 国际, 国际性, 大都, 都市, 大都市, ,, 拥有, 复旦, 大学, 复旦大学, 、, 上海, 交通, 大学, 上海交通大学, 等, 知名, 高等, 学府, 高等学府

jieba.lcut

jieba.cut使用方法一样,不过返回的是列表。

cut和cut_for_search方法都是支持繁体字的。

5. 添加自定义词典

如果是对专业新闻或者小说进行分词,会有很多的新词汇,jieba库里没有就没办法识别,那么就需要添加自定义的词汇,比如:奥利给。

添加自定义词汇的方法:jieba.load_userdict(file_name)参数是文本文件,txt、csv都可以。

自定义词典文件的词汇格式是一个词占一行,每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。比如:

以"奥利给,管虎执导的八佰是一部让人热血沸腾的好电影。" 这段话为例, 如果不添加自定义词典,很多词没办法识别出来。

# 不添加自定义词典
seg_list = jieba.cut("奥利给,管虎执导的八佰是一部让人热血沸腾的好电影")
print("/ ".join(seg_list))  
# 返回结果
奥利/ 给/ ,/ 管虎/ 执导/ 的/ 八佰是/ 一部/ 让/ 人/ 热血沸腾/ 的/ 好/ 电影

添加自定义词典后,新词、人名、电影名都可以识别出来

# 载入词典
jieba.load_userdict("dict.txt")
seg_list = jieba.cut("奥利给,管虎执导的八佰是一部让人热血沸腾的好电影")
print("/ ".join(seg_list))  
# 返回结果
奥利给/ ,/ 管虎/ 执导/ 的/ 八佰/ 是/ 一部/ 让/ 人/ 热血沸腾/ 的/ 好/ 电影

6. 结论

jieba无疑是一款优秀的分词工具,而且在不断地优化成长。前面讲了一些基本的使用,大家还可以尝试使用停用词、提取关键词、词性标注、词位置查询等功能,也是十分的便捷。

目录
相关文章
|
消息中间件 存储 NoSQL
redis协议与异步方式学习笔记
redis协议与异步方式学习笔记
307 0
|
消息中间件 安全 Kafka
Kafka、RabbitMQ、RocketMQ 消息中间件的对比 | 消息发送性能篇
消息中间件性能究竟哪家强? 带着这个疑问,我们消息队列测试小组对常见的三类消息产品(Kafka、RabbitMQ、RocketMQ)做了性能比较。
27576 110
|
5月前
|
NoSQL Java 数据库连接
SpringBoot框架
SpringBoot简化Spring开发,核心功能包括starter起步依赖、自动配置及内嵌服务器支持。通过@SpringBootApplication实现自动化配置,支持多种配置方式,优先级为:命令行参数 > 系统属性 > properties > yml/yaml。可自定义starter实现模块化集成。
|
自然语言处理 测试技术 决策智能
让RAG更聪明,ViDoRAG开启视觉文档检索增强生成新范式,上阿里云百炼可直接体验
视觉丰富文档的高效检索与生成是自然语言处理领域的重大挑战。ViDoRAG(Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents)由阿里巴巴通义实验室、中国科学技术大学和上海交通大学联合提出,通过多智能体框架和动态迭代推理机制解决此问题。其核心包括多模态混合检索策略和多智能体生成流程,同时发布的ViDoSeek数据集,专为大规模文档集合设计,提供复杂推理与精准问答的评估基准。实验表明,ViDoRAG在准确率和效率上优于传统方法,未来将优化系统性能并降低计算成本。
1149 63
|
测试技术 语音技术
FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
475 0
|
存储 机器学习/深度学习 人工智能
《高斯数据库携手人工智能,智斗数据量爆发式增长》
高斯数据库结合人工智能,为数据量爆发式增长提供创新解决方案。其AI4DB技术实现智能运维管理,自动监控与优化数据库性能;智能优化器加速复杂查询处理;库内AI引擎支持机器学习,深度挖掘数据价值;先进压缩技术节省存储空间。某电商企业应用后,性能提升显著,运维成本降低30%,商品推荐点击率提高20%。这一结合助力企业在大数据时代实现高效数据管理和业务增长。
397 15
|
缓存 负载均衡 Java
c++写高性能的任务流线程池(万字详解!)
本文介绍了一种高性能的任务流线程池设计,涵盖多种优化机制。首先介绍了Work Steal机制,通过任务偷窃提高资源利用率。接着讨论了优先级任务,使不同优先级的任务得到合理调度。然后提出了缓存机制,通过环形缓存队列提升程序负载能力。Local Thread机制则通过预先创建线程减少创建和销毁线程的开销。Lock Free机制进一步减少了锁的竞争。容量动态调整机制根据任务负载动态调整线程数量。批量处理机制提高了任务处理效率。此外,还介绍了负载均衡、避免等待、预测优化、减少复制等策略。最后,任务组的设计便于管理和复用多任务。整体设计旨在提升线程池的性能和稳定性。
425 5
|
数据挖掘 索引 Python
python_DataFrame的loc和iloc取数据 基本方法总结
python_DataFrame的loc和iloc取数据 基本方法总结
2715 0
python_DataFrame的loc和iloc取数据 基本方法总结
|
Web App开发 前端开发 JavaScript
React——前端开发中模块与组件【四】
React——前端开发中模块与组件【四】
297 0
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的毕业设计选题系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的毕业设计选题系统的详细设计和实现(源码+lw+部署文档+讲解等)
337 0