python jieba库用法

简介: 常见问题

结巴分词支持以下3种分词模式:

精确模式。试图将句子最精确地切开,适合文本分析。


全模式。将句子中所有的可能成词的词语都扫描出来,速度非常快,但是不能解决歧义。


搜索引擎模式。在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。


结巴分词使用的算法是基于统计的分词方法,主要有如下3种方法:

基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图


采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。


对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法


1、安装【jieba】库【pip install jieba】

1.png

2、jieba精确模式分词使用lcut()函数,类似cut()函数,其参数和cut()函数是一致的,只不过返回结果是列表而不是生成器,默认使用精确模式。

默认模式。句子精确地切开,每个字符只会出席在一个词中,适合文本分析;


2.png3.png

3、全模式【cut_all=True】

把句子中所有词都扫描出来, 速度非常快,有可能一个字同时分在多个词

4.png5.png


4、搜索引擎模式【lcut_for_search()】

在精确模式的基础上,对长度大于2的词再次切分,召回当中长度为2或者3的词,从而提高召回率,常用于搜索引擎。

6.png7.png

希望对大家有所帮助。



相关文章
|
6天前
|
XML JSON 数据库
Python的标准库
Python的标准库
117 77
|
1月前
|
调度 开发者 Python
Python中的异步编程:理解asyncio库
在Python的世界里,异步编程是一种高效处理I/O密集型任务的方法。本文将深入探讨Python的asyncio库,它是实现异步编程的核心。我们将从asyncio的基本概念出发,逐步解析事件循环、协程、任务和期货的概念,并通过实例展示如何使用asyncio来编写异步代码。不同于传统的同步编程,异步编程能够让程序在等待I/O操作完成时释放资源去处理其他任务,从而提高程序的整体效率和响应速度。
|
21天前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
61 4
数据分析的 10 个最佳 Python 库
|
7天前
|
XML JSON 数据库
Python的标准库
Python的标准库
33 11
|
20天前
|
人工智能 API 开发工具
aisuite:吴恩达发布开源Python库,一个接口调用多个大模型
吴恩达发布的开源Python库aisuite,提供了一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内的11个模型平台,简化了多模型管理和测试的工作,促进了人工智能技术的应用和发展。
81 1
aisuite:吴恩达发布开源Python库,一个接口调用多个大模型
|
7天前
|
数据可视化 Python
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
通过这些思维导图和分析说明表,您可以更直观地理解和选择适合的数据可视化图表类型,帮助更有效地展示和分析数据。
45 8
|
28天前
|
XML 存储 数据库
Python中的xmltodict库
xmltodict是Python中用于处理XML数据的强大库,可将XML数据与Python字典相互转换,适用于Web服务、配置文件读取及数据转换等场景。通过`parse`和`unparse`函数,轻松实现XML与字典间的转换,支持复杂结构和属性处理,并能有效管理错误。此外,还提供了实战案例,展示如何从XML配置文件中读取数据库连接信息并使用。
Python中的xmltodict库
|
27天前
|
存储 人工智能 搜索推荐
Memoripy:支持 AI 应用上下文感知的记忆管理 Python 库
Memoripy 是一个 Python 库,用于管理 AI 应用中的上下文感知记忆,支持短期和长期存储,兼容 OpenAI 和 Ollama API。
87 6
Memoripy:支持 AI 应用上下文感知的记忆管理 Python 库
|
15天前
|
安全 API 文件存储
Yagmail邮件发送库:如何用Python实现自动化邮件营销?
本文详细介绍了如何使用Yagmail库实现自动化邮件营销。Yagmail是一个简洁强大的Python库,能简化邮件发送流程,支持文本、HTML邮件及附件发送,适用于数字营销场景。文章涵盖了Yagmail的基本使用、高级功能、案例分析及最佳实践,帮助读者轻松上手。
27 4
|
23天前
|
Python
Python三引号用法与变量详解
本文详细介绍了Python中三引号(`"""` 或 `'''`)的用法,包括其基本功能、如何在多行字符串中使用变量(如f-string、str.format()和%操作符),以及实际应用示例,帮助读者更好地理解和运用这一强大工具。
43 2