一文速学-Pandas数据分组操作方法详解+代码展示

2022-10-12 892

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一文速学-Pandas数据分组操作方法详解+代码展示

数据分组

数据分组操作可以理解分为三个步骤：

第一步为将指定的数据表，按照键的不同分为若干组。第二部为将这些分组进行计算操作，可以设定为自定义函数运算。第三步计算完成后，再进行合并操作，得到新的一张表格。这个操作很像大数据架构计算框架中的MapReduce，经过上述操作我们就能对一些排列杂乱无章的表操作，从而得到我们想要的数据。接着我们来进行实例操作：

第一步：分组

首先我们读出这次的实例表：

对于分组Pandas提供了groupby函数，该函数可以根据传入的列名进行自动分组，基本格式如下：

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

参数说明：

by：指定分组的列索引

axis：0为逐行处理1为逐列处理，默认为0.

level：若为复合索引则可以调整索引层次

as_index:聚合输出,返回对象组标签的索引。

sort：排序

group_keys：当调用到apply函数时，传入主键

squeeze:降低维数的返回类型，若为True则仅返回一致的数据类型

若我们对人群类型进行分组处理：

df1.groupby("人群类型")
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000028A8EB14DC8>

使用groupby函数后我们发现并没有返回一个DataFrame，而是得到了DataFrameGroupBy的一个数据类型。这个数据类型包含分组以后的若干数据，我们需要对这些分组数据进行汇总计算之后才会显示。

对于分完组后的DataFrameGroupBy来说，使用head()函数看前几列时，输出的是每组的前几列：

groupby1=df1.groupby("人群类型")
groupby1.head(1)

而first显示的则是每一个分组的第一个信息，可以理解为形成了一个类似字典的结构：

groupby1.first()

1)根据一列分组：

1. groupby1=df1.groupby("人群类型")
2. groupby1.get_group('新用户').head()

2)根据多列分组

我们用两个主键人群类型和人群数值来分组：

1. groupby2=df1.groupby(["人群类型","人群数值"])
2. groupby2.get_group(('一般用户',10)).head()

3)组容量

使用size函数可以看到每个DataFrameGroupBy中根据主键分类后的个数：

4)遍历

循环即可：

1. for name,group in grouped_single:
2. print(name)
3.     display(group.head())

5)多级索引

通过给定level参数可以调整指向的索引为第几索引：

1. df2=df1.set_index(['人群类型','性别'])
2. df2.groupby(level=1).get_group('男').head()

6）组合操作

可以通过使用各种函数来调用gourpby函数：

df1.groupby(['人群类型'])['人群数值'].count()>=3

df1.groupby(['人群类型'])['人群数值'].mean()

第二步：聚合

其实对于聚合函数我们已经非常熟悉，常见的mean()，sum()，size()，count()等这类函数都是聚合函数，所谓聚合就是将大量数据进行处理后形成另一个代表性的标量。

在Pandas中提供了agg()方法专门用来聚合一些函数，其基础格式为：

DataFrame.agg（func，axis = 0，* args，** kwargs ）

参数说明：

func：用于聚合数据的函数

axis：0为逐行操作，1为逐列操作

args:传递给func的为位置参数

kwargs：传递给func的关键字参数

为了方便展示这里重新构建一个表：

data = {'name': ['user1', 'user2', 'user3', 'user4', 'user5'],
        'old': [21, 21, 21, 19, 26],
        'weight': [124, 124, 124,103,121],
       'sex':['女','男','男','男','男'],
       'species':['一般用户','新用户','一般用户','流失用户','一般用户']}
columns1=['name', 'old', 'weight','sex','species']
index1=['id1', 'id2', 'id3','id4','id5']
df2= pd.DataFrame(data,columns=columns1,index=index1)

1)多聚合

我们可以通过species进行分组后采用聚合函数，可以分别指定列开分析数据：

1. goupby3=df2.groupby(['species'])
2. goupby3['old'].agg(['min','mean','max']

2）重命名

goupby3['old'].agg([('rename_min','min'),('rename_max','max')])

3)多列聚合

goupby3.agg({'old':['min','max'],'weight':['mean']})

4)用户自定义函数

agg函数中可嵌套lambda函数：

goupby3['old'].agg(lambda x:print(x.head()))

判断用户最大是否在18-20岁之间：

1. def f(s,low,high):
2. return s.between(low,high).max()
3. goupby3['old'].agg(f,18,20)

第三步：apply合并

apply是应用的最广泛的函数，这得益于它的兼容性，我们可以使用apply进行合并分组生成更多我们想要的表格。

goupby3.apply(lambda x:x.max())

返回区间数：

goupby3['old'].apply(lambda x:x.max()-x.min()).head()

一文速学-Pandas数据分组操作方法详解+代码展示

数据分组

第一步：分组

1)根据一列分组：

2)根据多列分组

3)组容量

4)遍历

5)多级索引

6）组合操作

第二步：聚合

1)多聚合

2）重命名

3)多列聚合

4)用户自定义函数

第三步：apply合并

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

一文速学-Pandas数据分组操作方法详解+代码展示

数据分组

第一步：分组

1)根据一列分组：

2)根据多列分组

3)组容量

4)遍历

5)多级索引

6）组合操作

第二步：聚合

1)多聚合

2）重命名

3)多列聚合

4)用户自定义函数

第三步：apply合并

热门文章

最新文章

相关课程

相关电子书

相关实验场景