快速介绍Python数据分析库pandas的基础知识和代码示例(二)

简介: 快速介绍Python数据分析库pandas的基础知识和代码示例

数据清理

rename()函数在需要重命名某些选定列时非常有用,因为我们只需要指定要重命名的列的信息。

# Rename columns
df = df.rename({'Name':'Student','Algebra':'Math'}, axis='columns')

640.png

在DataFrame中,有时许多数据集只是带着缺失的数据的,或者因为它存在而没有被收集,或者它从未存在过。

NaN(非数字的首字母缩写)是一个特殊的浮点值,所有使用标准IEEE浮点表示的系统都可以识别它

pandas将NaN看作是可互换的,用于指示缺失值或空值。有几个有用的函数用于检测、删除和替换panda DataFrame中的空值。

# Checks for null Values, Returns Boolean Arrray
check_for_nan = df.isnull()

640.png

要检查panda DataFrame中的空值,我们使用isnull()或notnull()方法。方法返回布尔值的数据名,对于NaN值为真。在相反的位置,notnull()方法返回布尔值的数据,对于NaN值是假的。

value = df.notnull() # Opposite of df2.isnull()

640.png

我们使用dropna()函数删除所有缺少值的行。

drop_null_row = df.dropna() # Drop all rows that contain null values

640.png

有时,我们可能只是想删除缺失值的列。

# Drop all columns that contain null values
drop_null_col = df.dropna(axis=1)

640.png

我们可以使用fillna()来填充缺失的值。例如,我们可能想用0替换' NaN '。

replace_null = df.fillna(0) # Replace all null values with 0

640.png

或者用平均值替换NaN。

# Replace all null values with the mean (mean can be replaced with almost any function from the statistics module)
df = round(df.fillna(df.mean()),2)

640.png

方法可用于替换DataFrame中的值

one = df.replace(100,'A') # Replace all values equal to 1 with 'one'

640.png

筛选、排序和分组

找到看到物理成绩达到80或80以上的学生

fil_80 = df[df['Physics'] > 80]

640.png

学生在化学考试中得到80分或更高的分数,数学考试中却不到90分

fil = df[(df['Chemistry'] > 80) & (df['Math'] < 90)]

640.png

sort_values ()可以以特定的方式对pandas数据进行排序。通常回根据一个或多个列的值对panda DataFrame进行排序,或者根据panda DataFrame的行索引值或行名称进行排序。

例如,我们希望按学生的名字按升序排序。

ascending = df.sort_values('Student')

640.png

化学分数按降序排列

descending = df.sort_values('Chemistry',ascending=False)

640.png

更复杂一点的,我们希望按物理分数的升序排序,然后按化学分数的降序排序。

df.sort_values(['Physics','Chemistry'],ascending=[True,False])

640.png

groupby 是一个非常简单的概念。我们可以创建一组类别,并对类别应用一个函数。这是一个简单的概念,但却是我们经常使用的极有价值的技术。Groupby的概念很重要,因为它能够有效地聚合数据,无论是在性能上还是在代码数量上都非常出色。

通过性别进行分组

group_by = df.groupby(['Sex']) # Returns a groupby object for values from one column
group_by.first() # Print the first value in each group

640.png

计算性别分组的所有列的平均值

average = df.groupby(‘Sex’).agg(np.mean)

640.png

统计数据

我们可能熟悉Excel中的数据透视表,可以轻松地洞察数据。类似地,我们可以使用panda中可用的pivot_table()函数创建Python pivot表。该函数与group_by()函数非常相似,但是提供了更多的定制。

假设我们想按性别将值分组,并计算物理和化学列的平均值和标准差。我们将调用pivot_table()函数并设置以下参数:

index设置为 'Sex',因为这是来自df的列,我们希望在每一行中出现一个唯一的值

values值为'Physics','Chemistry' ,因为这是我们想应用一些聚合操作的列

aggfunc设置为 'len','np.mean','np.std

pivot_table = df.pivot_table(index='Sex',
                             values=['Physics','Chemistry'],
                             aggfunc=[len, np.mean, np.std])

640.png

注意:使用len的时候需要假设数据中没有NaN值。

description()用于查看一些基本的统计细节,如数据名称或一系列数值的百分比、平均值、标准值等。

df.describe() # Summary statistics for numerical columns

640.png

使用max()查找每一行和每列的最大值

# Get a series containing maximum value of each row
max_row = df.max(axis=1)

640.png

# Get a series containing maximum value of each column without skipping NaN
max_col = df.max(skipna=False)

640.png

类似地,我们可以使用df.min()来查找每一行或每列的最小值。

其他有用的统计功能:

sum():返回所请求的轴的值的总和。默认情况下,axis是索引(axis=0)。

mean():返回平均值

median():返回每列的中位数

std():返回数值列的标准偏差。

corr():返回数据格式中的列之间的相关性。

count():返回每列中非空值的数量。

总结

我希望这张小抄能成为你的参考指南。当我发现更多有用的Pandas函数时,我将尝试不断地对其进行更新。本文的代码

https://github.com/Nothingaholic/Python-Cheat-Sheet/blob/master/pandas.ipynb

目录
相关文章
|
8月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
604 0
|
9月前
|
数据采集 数据可视化 数据挖掘
Python数据分析实战:Pandas处理结构化数据的核心技巧
在数据驱动时代,结构化数据是分析决策的基础。Python的Pandas库凭借其高效的数据结构和丰富的功能,成为处理结构化数据的利器。本文通过真实场景和代码示例,讲解Pandas的核心操作,包括数据加载、清洗、转换、分析与性能优化,帮助你从数据中提取有价值的洞察,提升数据处理效率。
437 3
|
8月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
713 0
|
8月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
9月前
|
数据可视化 数据挖掘 大数据
基于python大数据的水文数据分析可视化系统
本研究针对水文数据分析中的整合难、分析单一和可视化不足等问题,提出构建基于Python的水文数据分析可视化系统。通过整合多源数据,结合大数据、云计算与人工智能技术,实现水文数据的高效处理、深度挖掘与直观展示,为水资源管理、防洪减灾和生态保护提供科学决策支持,具有重要的应用价值和社会意义。
|
10月前
|
存储 数据挖掘 大数据
基于python大数据的用户行为数据分析系统
本系统基于Python大数据技术,深入研究用户行为数据分析,结合Pandas、NumPy等工具提升数据处理效率,利用B/S架构与MySQL数据库实现高效存储与访问。研究涵盖技术背景、学术与商业意义、国内外研究现状及PyCharm、Python语言等关键技术,助力企业精准营销与产品优化,具有广泛的应用前景与社会价值。
|
10月前
|
机器学习/深度学习 算法 数据挖掘
【数据分析】基于matlab私家车充电模型(含私家车日行驶距离概率密度及累加函数,电动汽车出发时间(或者称开始充电的时间)概率)(Matlab代码实现)
【数据分析】基于matlab私家车充电模型(含私家车日行驶距离概率密度及累加函数,电动汽车出发时间(或者称开始充电的时间)概率)(Matlab代码实现)
242 0
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
1194 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
424 2
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
680 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析

推荐镜像

更多