数据清洗【Python文本数据处理】

简介: 数据清洗【Python文本数据处理】

jieba

三种分词函数

  1. 精确模式
  2. 全模式
  3. 搜索引擎模式
import jieba
words = "多学一分钟,老婆会不同"
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式

运行结果:

['多学', '一分钟', ',', '老婆', '会', '不同']
['多', '学', '一分', '一分钟', '分钟', ',', '老婆', '会', '不同']
['多学', '一分', '分钟', '一分钟', ',', '老婆', '会', '不同']

词性标注

词性标记 说明
a 形容词
ad 副形词
ag 形容词性语素,形容词性实词+副词。如:充足、不足、过于、欠佳等
b 连词
d 副词
e 叹词
f 方位词,就是指方位的词
g 语素
h 前缀
i 成语
j 简略词性,如“副”
k 后缀
l 习用语
m 数词、数量
n 名词
nr 人名
ns 地名
nt 机构团体名称
nz 其他专有名词
p 介词
q 量词
r 代词
s 处所词,地名等
t 时间词
u 助词
v 动词
vd 副动词
vg 动词性语素,动词性实词+副词。如:走开、跑快等
vi 不及物动词
vn 名动词
w 标点符号
x 非语素字,采用汉字的非语素字为标记
y 语气词
z 状态词,形容词作状语
import jieba
import jieba.posseg as pseg
res = pseg.cut("山西的教育很差劲")
for word,flag in res:
    print(word,":",flag)

运行结果:

山西 : ns
的 : uj
教育 : vn
很 : zg
差劲 : n

添加词库

import jieba
words = "鸡你太美,篮球太危险"
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式
jieba.add_word('鸡你太美')
print("=======添加新词到词库=======")
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式

运行结果:

['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
=======添加新词到词库=======
['鸡你太美', ',', '篮球', '太', '危险']
['鸡你太美', '太美', ',', '篮球', '太', '危险']
['太美', '鸡你太美', ',', '篮球', '太', '危险']

统计词频

import jieba
from collections import Counter
# 读取文本文件内容
content = open("D:\Desktop\形式主义.txt", encoding='utf-8').read()
# 进行分词 搜索引擎模式
words = jieba.lcut_for_search(content)
# 统计词频
word_counts = Counter(words)
# 输出词频结果
print("词语\t\t\t频率")
for word, count in word_counts.most_common(20):
    if len(word) > 1:
        print("{}\t\t\t{}".format(word, count))

运行结果:

词语      频率
工作      31
就业      27
招生      24
强化      7
做好      6
推动      5
提升      5
不断      4
责任      4
学校      4
水平      4
发展      4
高质      4
质量      4
相关文章
|
6天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
24 0
|
1月前
|
数据采集 存储 数据处理
Python爬虫-数据处理与存储(一)
Python爬虫-数据处理与存储(一)
|
16天前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
2天前
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
18 3
|
3天前
|
数据采集 机器学习/深度学习 数据挖掘
利用Python进行高效的数据清洗与预处理
在数据科学和机器学习项目中,数据清洗与预处理是至关重要的一步。本文将介绍如何使用Python中的Pandas库进行高效的数据清洗与预处理。我们将探讨如何处理缺失值、异常值、重复数据,以及如何进行数据类型转换和特征工程。此外,还将介绍一些实用的技巧来优化数据处理的性能。
|
7天前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
18 3
|
7天前
|
存储 机器学习/深度学习 算法
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第26天】NumPy和SciPy是Python科学计算领域的两大核心库。NumPy提供高效的多维数组对象和丰富的数学函数,而SciPy则在此基础上提供了更多高级的科学计算功能,如数值积分、优化和统计等。两者结合使Python在科学计算中具有极高的效率和广泛的应用。
22 2
|
7天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
20 1
|
23天前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
40 2
|
1月前
|
机器学习/深度学习 自然语言处理 大数据
使用Python进行文本情感分析
【10月更文挑战第2天】使用Python进行文本情感分析
26 3