Python数据分析之数据清洗

简介: good data decides good analyse数据清洗,是数据分析中不可缺少的一个环节,其处理的好坏在很大程度上影响着数据分析的结果。

good data decides good analyse

数据清洗,是数据分析中不可缺少的一个环节,其处理的好坏在很大程度上影响着数据分析的结果。而且以前听老师说过数据清洗占整个的数据分析的一半时间以上(汗。。。数据清洗也是一个大学问啊)。

查看空缺值

首先读入文件:

import pandas as pd
test = pd.read_excel('C:/Users/luopan/Desktop/test.xlsx',sheetname='Sheet1')
test
3629157-cb9f5dd5f45cb6d3.jpg

我们可以看出有一个nan,李四的数学成绩也是不符合常理的。我们通过isnull函数查看数据的空缺值:

test.isnull()
3629157-f9b7b5d4f715cade.jpg

通过下面命令计算每列数据的空缺值:

test.isnull().sum()
3629157-2fb642d68a699abf.jpg

对于不符合常理的数据也可进行设置为空缺值:

test1 = pd.read_excel('C:/Users/luopan/Desktop/test.xlsx',sheetname='Sheet1',na_values=['750'])
test1
3629157-d74418fae733e911.jpg

过滤缺失值

test1.数学[test1.数学.notnull()]
img_ec683d15e728a422d752b8a66f3d9d00.png

去掉缺失值

test1.dropna()
3629157-f1e88381fa822923.jpg
test1.dropna(how='all')
img_ef987fb8aa1cffcd2e20c58de63ea8fd.png

加入all参数的意思:行全为nan才会drop掉。

填充缺失值

前一个值填充:

test1.fillna(method='ffill')
3629157-16041e03f71db81e.jpg

后一个值填充:

test1.fillna(method='bfill')

用列的均值填充:

test1.fillna(test1.mean())
3629157-2ef7a71deab268ef.jpg

等距填充:

test1.interpolate()
相关文章
|
15天前
|
机器学习/深度学习 数据采集 算法
Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
Python用逻辑回归、决策树、SVM、XGBoost 算法机器学习预测用户信贷行为数据分析报告
|
2天前
|
数据采集 数据可视化 数据挖掘
如何利用Python中的Pandas库进行数据分析和可视化
Python的Pandas库是一种功能强大的工具,可以用于数据分析和处理。本文将介绍如何使用Pandas库进行数据分析和可视化,包括数据导入、清洗、转换以及基本的统计分析和图表绘制。通过学习本文,读者将能够掌握利用Python中的Pandas库进行高效数据处理和可视化的技能。
|
4天前
|
机器学习/深度学习 数据可视化 算法
使用Python进行数据分析的5个必备技巧
【5月更文挑战第9天】本文介绍了Python数据分析的五个关键技巧:1) 使用Pandas进行数据处理和清洗;2) 利用NumPy进行高效数值计算;3) 通过Matplotlib和Seaborn创建可视化图表;4) 使用Scikit-learn执行机器学习任务;5) 在Jupyter Notebook中进行交互式分析和文档分享。这些技巧能提升数据分析的效率和准确性。
|
5天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
7天前
|
机器学习/深度学习 运维 算法
Python数据分析中的异常检测与处理方法
在Python数据分析中,异常数据是一个常见但又十分重要的问题。本文将介绍几种常见的异常检测与处理方法,包括基于统计学方法、机器学习方法以及深度学习方法。通过对异常数据的有效检测与处理,可以提高数据分析的准确性和可信度,从而更好地指导业务决策。
|
8天前
|
数据采集 数据可视化 数据挖掘
Python在数据分析中的强大应用
【5月更文挑战第5天】Python在数据驱动时代成为数据分析师首选工具,得益于其丰富的数据科学库(如NumPy、Pandas、Matplotlib、Seaborn和SciPy)。这些库支持数据清洗、探索、建模和可视化。Python在数据清洗、文本分析、Web数据抓取和大数据处理等方面有广泛应用,并因其易学性、强大社区和广泛适用性而备受青睐。未来,Python在数据分析领域的角色将更加重要。
|
13天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】金融数据分析中的机器学习应用
【4月更文挑战第30天】本文探讨了机器学习在金融数据分析中的应用,如股价预测、信用评分、欺诈检测、算法交易和风险管理,并以Python为例展示了如何进行股价预测。通过使用机器学习模型,金融机构能更准确地评估风险、识别欺诈行为并优化交易策略。Python结合scikit-learn库简化了数据分析过程,助力金融从业者提高决策效率。随着技术发展,机器学习在金融领域的影响力将持续增强。
|
13天前
|
数据采集 机器学习/深度学习 存储
【Python 机器学习专栏】Python 数据清洗与预处理技巧
【4月更文挑战第30天】在数据驱动的时代,数据清洗与预处理对机器学习模型的性能至关重要。Python凭借其强大的工具,如Pandas和Scikit-learn,成为数据处理的理想选择。本文聚焦Python中的数据清洗技巧:处理缺失值(填充或删除)、异常值识别与修正、重复数据删除。同时,讨论了数据预处理的标准化、归一化、特征选择和特征工程。强调了结合业务需求、数据验证及备份的重要性,指出有效数据清洗与预处理是提升模型性能的基础。
|
13天前
|
数据采集 SQL 数据挖掘
Python数据分析中的Pandas库应用指南
在数据科学和分析领域,Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库,该库提供了强大的数据结构和数据分析工具,使得数据处理变得更加简单高效。通过详细的示例和应用指南,读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析,从而提升数据处理的效率和准确性。
|
14天前
|
机器学习/深度学习 数据采集 数据可视化
Python在数据分析领域的应用研究
Python在数据分析领域的应用研究
26 0