数据清洗【Python文本数据处理】

简介: 数据清洗【Python文本数据处理】

jieba

三种分词函数

  1. 精确模式
  2. 全模式
  3. 搜索引擎模式
import jieba
words = "多学一分钟,老婆会不同"
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式

运行结果:

['多学', '一分钟', ',', '老婆', '会', '不同']
['多', '学', '一分', '一分钟', '分钟', ',', '老婆', '会', '不同']
['多学', '一分', '分钟', '一分钟', ',', '老婆', '会', '不同']

词性标注

词性标记 说明
a 形容词
ad 副形词
ag 形容词性语素,形容词性实词+副词。如:充足、不足、过于、欠佳等
b 连词
d 副词
e 叹词
f 方位词,就是指方位的词
g 语素
h 前缀
i 成语
j 简略词性,如“副”
k 后缀
l 习用语
m 数词、数量
n 名词
nr 人名
ns 地名
nt 机构团体名称
nz 其他专有名词
p 介词
q 量词
r 代词
s 处所词,地名等
t 时间词
u 助词
v 动词
vd 副动词
vg 动词性语素,动词性实词+副词。如:走开、跑快等
vi 不及物动词
vn 名动词
w 标点符号
x 非语素字,采用汉字的非语素字为标记
y 语气词
z 状态词,形容词作状语
import jieba
import jieba.posseg as pseg
res = pseg.cut("山西的教育很差劲")
for word,flag in res:
    print(word,":",flag)

运行结果:

山西 : ns
的 : uj
教育 : vn
很 : zg
差劲 : n

添加词库

import jieba
words = "鸡你太美,篮球太危险"
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式
jieba.add_word('鸡你太美')
print("=======添加新词到词库=======")
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式

运行结果:

['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
=======添加新词到词库=======
['鸡你太美', ',', '篮球', '太', '危险']
['鸡你太美', '太美', ',', '篮球', '太', '危险']
['太美', '鸡你太美', ',', '篮球', '太', '危险']

统计词频

import jieba
from collections import Counter
# 读取文本文件内容
content = open("D:\Desktop\形式主义.txt", encoding='utf-8').read()
# 进行分词 搜索引擎模式
words = jieba.lcut_for_search(content)
# 统计词频
word_counts = Counter(words)
# 输出词频结果
print("词语\t\t\t频率")
for word, count in word_counts.most_common(20):
    if len(word) > 1:
        print("{}\t\t\t{}".format(word, count))

运行结果:

词语      频率
工作      31
就业      27
招生      24
强化      7
做好      6
推动      5
提升      5
不断      4
责任      4
学校      4
水平      4
发展      4
高质      4
质量      4
相关文章
|
3月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
114 0
|
1月前
|
SQL 分布式计算 数据处理
云产品评测|分布式Python计算服务MaxFrame | 在本地环境中使用MaxFrame + 基于MaxFrame实现大语言模型数据处理
本文基于官方文档,介绍了由浅入深的两个部分实操测试,包括在本地环境中使用MaxFrame & 基于MaxFrame实现大语言模型数据处理,对步骤有详细说明。体验下来对MaxCompute的感受是很不错的,值得尝试并使用!
53 1
|
1月前
|
人工智能 分布式计算 数据处理
有奖评测,基于分布式 Python 计算服务 MaxFrame 进行数据处理
阿里云MaxCompute MaxFrame推出分布式Python计算服务MaxFrame评测活动,助力开发者高效完成大规模数据处理、可视化探索及ML/AI开发。活动时间为2024年12月17日至2025年1月31日,参与者需体验MaxFrame并发布评测文章,有机会赢取精美礼品。
|
3月前
|
数据采集 存储 数据处理
Python中的多线程编程及其在数据处理中的应用
本文深入探讨了Python中多线程编程的概念、原理和实现方法,并详细介绍了其在数据处理领域的应用。通过对比单线程与多线程的性能差异,展示了多线程编程在提升程序运行效率方面的显著优势。文章还提供了实际案例,帮助读者更好地理解和掌握多线程编程技术。
|
3月前
|
数据处理 开发者 Python
Python中的列表推导式:简洁高效的数据处理
在编程世界中,效率和可读性是代码的两大支柱。Python语言以其独特的简洁性和强大的表达力,为开发者提供了众多优雅的解决方案,其中列表推导式便是一个闪耀的例子。本文将深入探讨列表推导式的使用场景、语法结构及其背后的执行逻辑,带你领略这一特性的魅力所在。
|
3月前
|
数据采集 数据挖掘 数据格式
使用Python进行数据清洗的实用指南
在数据分析的世界里,"垃圾进,垃圾出"这句老话再贴切不过。数据清洗作为数据分析前的关键步骤,直接影响着分析结果的准确性与可靠性。本文将通过浅显易懂的语言和实际代码示例,带你掌握如何使用Python及其强大的库进行数据清洗,从缺失值处理到异常值检测,再到数据格式转换和重复数据删除,让你的数据准备工作变得既高效又专业。
177 2
|
4月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
3月前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
1058 3
|
3月前
|
数据采集 机器学习/深度学习 数据挖掘
利用Python进行高效的数据清洗与预处理
在数据科学和机器学习项目中,数据清洗与预处理是至关重要的一步。本文将介绍如何使用Python中的Pandas库进行高效的数据清洗与预处理。我们将探讨如何处理缺失值、异常值、重复数据,以及如何进行数据类型转换和特征工程。此外,还将介绍一些实用的技巧来优化数据处理的性能。
|
3月前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
117 3

热门文章

最新文章

推荐镜像

更多