超赞!两张小抄,带你 “迅速” 掌握Pandas “数据清洗” 流程!

简介: 超赞!两张小抄,带你 “迅速” 掌握Pandas “数据清洗” 流程!

本文简介

今天这篇文章,就当作是pandas教程的开篇文章吧!这是由Pandas官方发布的两张 “小抄”,内容不像matplotlib小抄那么多,但是内容确实极其精简,肯定可以迅速带你 “理清” Pandas学习思路。


项目地址如下:


https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf


当然,这只是带你入门,图中的每个知识点,在后面的系列文章里,都将系统性为大家讲解,see you later



一饱眼福

咱们先一饱眼福吧,上传图片可能会失真,导致图片看不清楚。文末会给大家提供 “高清版” 供大家下载。

image.png

image.png

虽然这两张图,不能详尽Pandas所有知识点,但是肯定是包含了Pandas的精髓,你掌握了这两张图,可以算是会用Pandas了。关于其它方法和技巧,大家练个手,基本也就学会了。


图片 “拆解” 讲解

肯定不是光给你两张图就行了呀,接下来,我们以此为基础,带着大家 “解剖” 这两张图吧。


① 创建DataFrame

DataFrame是pandas中最重要的数据结构,利用DataFrame()函数,我们可以创建各种不同结构的 “表格数据”,下面介绍了两种创建DataFrame的方法。

image.png


② 数据重塑

这里涉及到的知识点,就有点多了。什么是 “重塑” 呢?就是将原有的数据编程各种不同的结构。比如说:


melt:能够帮助我们实现列变行;

pivot:数据透视能够实现行变列;

concat:将不同的DataFrame按照行、列,进行拼接;

当然,这里还涉及到排序、删除列、重命名等问题;

image.png


③ 数据选取

有时候,我们需要针对某个DataFrame的某个部分,做某些操作,这就需要我们学会 “选取” 数据。这里分为2个部分 “选取行数据” 和 “选取列数据”。


选取行数据的若干操作:

image.png

选取列数据的若干操作:


image.png

④ 汇总数据

下图为大家提供了一些常用的 “统计函数”,还有几个常用的其他函数 “value_couns()”、“nunique”、“describe”等,它们能够帮助我们进行 “不同条件” 下的汇总,帮助我们更快的了解数据。

image.png


⑤ 处理缺失值

这里主要为大家讲解两个函数:dropna() 和 fillna()。

image.png


⑥ 分组操作

不管是Excel、SQL,还是Python,分组统计这个操作,一直是必学的操作,这也是pandas学习过程中,极其重要的一个知识点。我们可以将原始数据,按照某个条件分组,接着对每个组使用下面的这些函数。

image.png


⑦ 合并数据集

pandas中merge()函数的作用,相当于excel中的vlookup()函数,相当于mysql中的左连接、右连接等,能够很方便的帮助我们,建立不同表之间的联系。

image.png


⑧ 窗口函数

做数据分析时,特别是在分析时间序列数据时,需要使用到这两个函数,滚动窗口rolling函数和扩展窗口expanding函数。

image.png


⑨ 绘图

绘图不是matplotlib的特权,其实对于一些简单的统计图形,直接使用pandas绘制,会更简单、更方便。

image.png

今天的文章大致就讲到这,看到这里,你应该大致搞明白了pandas可以做哪些东西,对于pandas里面的细节东西,请关注 “pandas系列教程” 哦。


相关文章
|
7月前
|
数据采集 Python
如何在Python中使用Pandas库进行数据清洗?
【4月更文挑战第21天】Pandas在Python中用于数据清洗,包括处理缺失值(`dropna()`删除、`fillna()`填充)、处理重复值(`duplicated()`检查、`drop_duplicates()`删除)、处理异常值(条件筛选、分位数、标准差)和文本数据(字符串操作、正则表达式)。示例代码展示了各种方法的用法。
104 3
|
1月前
|
数据采集 数据挖掘 数据处理
如何使用 Pandas 库进行数据清洗和预处理?
数据清洗和预处理是数据分析中至关重要的步骤,Pandas库提供了丰富的函数和方法来完成这些任务
74 8
|
6天前
|
数据采集 分布式计算 大数据
Pandas数据清洗:缺失值处理
本文详细介绍了Pandas库中处理缺失值的方法,包括检测缺失值、删除缺失值、填充缺失值和插值法填充缺失值。通过基础概念和代码示例,帮助读者理解和解决数据清洗中常见的缺失值问题。
123 80
|
1月前
|
数据采集 Python
Pandas 常用函数-数据清洗
Pandas 常用函数-数据清洗
26 2
|
1月前
|
数据采集 数据挖掘 数据格式
Pandas 数据清洗
10月更文挑战第27天
47 0
Pandas 数据清洗
|
2月前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
156 0
|
5月前
|
机器学习/深度学习 数据采集 数据处理
重构数据处理流程:Pandas与NumPy高级特性在机器学习前的优化
【7月更文挑战第14天】在数据科学中,Pandas和NumPy是数据处理的关键,用于清洗、转换和计算。用`pip install pandas numpy`安装后,Pandas的`read_csv`读取数据,`fillna`处理缺失值,`drop`删除列。Pandas的`apply`、`groupby`和`merge`执行复杂转换。NumPy加速数值计算,如`square`进行向量化操作,`dot`做矩阵乘法。结合两者优化数据预处理,提升模型训练效率和效果。
74 1
|
6月前
|
数据采集 机器学习/深度学习 数据可视化
利用Python和Pandas库构建高效的数据分析流程
在数据驱动的时代,数据分析已成为企业决策的关键环节。本文介绍如何利用Python编程语言及其强大的数据分析库Pandas,构建一套高效且可扩展的数据分析流程。与常规的数据分析流程不同,本文不仅涵盖数据加载、清洗、转换等基础步骤,还强调数据可视化、模型探索与评估等高级分析技巧,并通过实际案例展示如何在Python中实现这些步骤,为数据分析师提供一套完整的数据分析解决方案。
|
6月前
|
数据采集 存储 数据可视化
Pandas高级教程:数据清洗、转换与分析
Pandas是Python的数据分析库,提供Series和DataFrame数据结构及数据分析工具,便于数据清洗、转换和分析。本教程涵盖Pandas在数据清洗(如缺失值、重复值和异常值处理)、转换(数据类型转换和重塑)和分析(如描述性统计、分组聚合和可视化)的应用。通过学习Pandas,用户能更高效地处理和理解数据,为数据分析任务打下基础。
797 3
|
7月前
|
数据采集 数据挖掘 Serverless
利用Python和Pandas库优化数据清洗流程
在数据分析项目中,数据清洗是至关重要的一步。传统的数据清洗方法往往繁琐且易出错。本文将介绍如何利用Python编程语言中的Pandas库,通过其强大的数据处理能力,实现高效、自动化的数据清洗流程。我们将探讨Pandas库在数据清洗中的应用,包括缺失值处理、重复值识别、数据类型转换等,并通过一个实际案例展示如何利用Pandas优化数据清洗流程,提升数据质量。