数据清洗【Python文本数据处理】

简介: 数据清洗【Python文本数据处理】

jieba

三种分词函数

  1. 精确模式
  2. 全模式
  3. 搜索引擎模式
import jieba
words = "多学一分钟,老婆会不同"
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式

运行结果:

['多学', '一分钟', ',', '老婆', '会', '不同']
['多', '学', '一分', '一分钟', '分钟', ',', '老婆', '会', '不同']
['多学', '一分', '分钟', '一分钟', ',', '老婆', '会', '不同']

词性标注

词性标记 说明
a 形容词
ad 副形词
ag 形容词性语素,形容词性实词+副词。如:充足、不足、过于、欠佳等
b 连词
d 副词
e 叹词
f 方位词,就是指方位的词
g 语素
h 前缀
i 成语
j 简略词性,如“副”
k 后缀
l 习用语
m 数词、数量
n 名词
nr 人名
ns 地名
nt 机构团体名称
nz 其他专有名词
p 介词
q 量词
r 代词
s 处所词,地名等
t 时间词
u 助词
v 动词
vd 副动词
vg 动词性语素,动词性实词+副词。如:走开、跑快等
vi 不及物动词
vn 名动词
w 标点符号
x 非语素字,采用汉字的非语素字为标记
y 语气词
z 状态词,形容词作状语
import jieba
import jieba.posseg as pseg
res = pseg.cut("山西的教育很差劲")
for word,flag in res:
    print(word,":",flag)

运行结果:

山西 : ns
的 : uj
教育 : vn
很 : zg
差劲 : n

添加词库

import jieba
words = "鸡你太美,篮球太危险"
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式
jieba.add_word('鸡你太美')
print("=======添加新词到词库=======")
print(jieba.lcut(words))    #默认-精确模式
print(jieba.lcut(words,cut_all=True))   #全模式
print(jieba.lcut_for_search(words))     #搜索引擎模式

运行结果:

['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
['鸡', '你', '太美', ',', '篮球', '太', '危险']
=======添加新词到词库=======
['鸡你太美', ',', '篮球', '太', '危险']
['鸡你太美', '太美', ',', '篮球', '太', '危险']
['太美', '鸡你太美', ',', '篮球', '太', '危险']

统计词频

import jieba
from collections import Counter
# 读取文本文件内容
content = open("D:\Desktop\形式主义.txt", encoding='utf-8').read()
# 进行分词 搜索引擎模式
words = jieba.lcut_for_search(content)
# 统计词频
word_counts = Counter(words)
# 输出词频结果
print("词语\t\t\t频率")
for word, count in word_counts.most_common(20):
    if len(word) > 1:
        print("{}\t\t\t{}".format(word, count))

运行结果:

词语      频率
工作      31
就业      27
招生      24
强化      7
做好      6
推动      5
提升      5
不断      4
责任      4
学校      4
水平      4
发展      4
高质      4
质量      4
相关文章
|
17天前
|
机器学习/深度学习 自然语言处理 数据可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
数据代码分享|PYTHON用NLP自然语言处理LSTM神经网络TWITTER推特灾难文本数据、词云可视化
|
22天前
|
数据采集 Python
如何在Python中使用Pandas库进行数据清洗?
【4月更文挑战第21天】Pandas在Python中用于数据清洗,包括处理缺失值(`dropna()`删除、`fillna()`填充)、处理重复值(`duplicated()`检查、`drop_duplicates()`删除)、处理异常值(条件筛选、分位数、标准差)和文本数据(字符串操作、正则表达式)。示例代码展示了各种方法的用法。
39 3
|
3天前
|
机器学习/深度学习 数据可视化 TensorFlow
Python深度学习基于Tensorflow(4)Tensorflow 数据处理和数据可视化
Python深度学习基于Tensorflow(4)Tensorflow 数据处理和数据可视化
11 3
|
3天前
|
机器学习/深度学习 自然语言处理 算法
Gensim详细介绍和使用:一个Python文本建模库
Gensim详细介绍和使用:一个Python文本建模库
15 1
|
5天前
|
数据采集 数据处理 开发者
Python 中的数据处理技巧:高效数据操作的艺术
Python 在数据处理方面表现卓越,为开发者提供了丰富的工具和库以简化数据操作。在本文中,我们将探讨 Python 中数据处理的一些技巧,包括数据清洗、数据转换以及优化数据操作的最佳实践。通过掌握这些技巧,您可以在 Python 中更加高效地处理和分析数据。
|
12天前
|
机器学习/深度学习 自然语言处理 算法
【Python机器学习专栏】文本数据的特征提取与表示
【4月更文挑战第30天】本文探讨了文本特征提取与表示在机器学习和NLP中的重要性。介绍了词袋模型、TF-IDF和n-gram等特征提取方法,以及稀疏向量和词嵌入等表示方式。Python中可利用sklearn和gensim库实现这些技术。有效的特征提取与表示有助于将文本数据转化为可处理的数值形式,推动NLP和机器学习领域的进步。
|
12天前
|
数据采集 机器学习/深度学习 存储
【Python 机器学习专栏】Python 数据清洗与预处理技巧
【4月更文挑战第30天】在数据驱动的时代,数据清洗与预处理对机器学习模型的性能至关重要。Python凭借其强大的工具,如Pandas和Scikit-learn,成为数据处理的理想选择。本文聚焦Python中的数据清洗技巧:处理缺失值(填充或删除)、异常值识别与修正、重复数据删除。同时,讨论了数据预处理的标准化、归一化、特征选择和特征工程。强调了结合业务需求、数据验证及备份的重要性,指出有效数据清洗与预处理是提升模型性能的基础。
|
16天前
|
新零售 分布式计算 数据可视化
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析
|
17天前
|
数据采集 机器学习/深度学习 人工智能
Python实现文本情感分析
Python实现文本情感分析
20 1
|
19天前
|
数据采集 数据可视化 数据处理
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器
Python从入门到精通的文章3.3.1 深入学习Python库和框架:数据处理与可视化的利器