Pandas之八Reshaping（二）-阿里云开发者社区

Pandas之八Reshaping（二）

2021-10-12 263

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 聊聊透视表功能，该功能和Excel中的数据透视功能相似。pivot：对原始DataFrame进行变形整理。pivot table：可以在数据变形整理的基础上，做数据聚合操作。

前文我们聊过了数据重塑中的stack和unstack，今天继续聊聊透视表功能，该功能和Excel中的数据透视功能相似。

pivot：对原始DataFrame进行变形整理。
pivot table：可以在数据变形整理的基础上，做数据聚合操作。

下面使用图中数据对其进行说明

df = pd.DataFrame(
{"A": ["foo", "foo", "foo", "foo", "foo",
       "bar", "bar", "bar", "bar"],
 "B": ["one", "one", "one", "two", "two",
       "one", "one", "two", "two"],
 "C": ["small", "large", "large", "small",
       "small", "large", "small", "small",
       "large"],
 "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
 "E": [2, 3, 4, 5, 6, 7, 8, 9, 10]
})

1. Pivot

将原始DataFrame重塑，返回一个新的DataFrame，大体变形过程如下图所示。

简要说明其参数：

data：需要做数据透视的原始DataFrame数据
columns：指定一个或多个列的值作为新DataFrame的列
index：指定一个或多个列的值作为新DataFrame的index，注意其值不可以重复，否则报错（可选，若不填则使用现有index）
values：指定一个或多列的值作为新DataFrame的值（可选，若不填则使用所有剩余列）

1.1 只指定必填参数

以指定columns为例，以B列的值作为新DataFrame的列名，会默认将其余所有列作为values，缺失值以np.nan替代。

可以理解为：原index不变，而以B列中的one和two来作为列名，展示DataFrame中所有的数据。

pd.pivot(df, columns="B")

1.2 指定所有参数

# 批定index时，注意该列的值不可重复
# 指定一列时，该列值不可重复；指定多列时，第一列的值不可重复。
pd.pivot(df, columns="B", 
         values="D", index=["E","C"])

2. Pivot Table

使用pivot只能对数据进行变形整理，有时还需要做新的数据做聚合分析，就可以使用pivot table，大体逻辑如下图。

该方法参数比较多，简单对其进行说明：

data：需要做数据透视的原始DataFrame数据
values：一列或多列做聚合处理的列名
index：在数据透视表index上进行分组的列，与pivot不同的是此处列中的值可以重复，因为会做聚合。
columns: 在数据透视表列上进行分组的列
aggfunc: 将要应用的聚合函数，默认是计算均值 numpy.mean

data，values，index和columns的用法与pivot基本一致，主要说一说aggfunc

2.1 指定一个聚合函数

对数据透视表中的D和E的数据做求和计算

pd.pivot_table(df,values=["D","E"], 
               index=["A"], 
               columns=["C"],
               aggfunc=np.sum)

2.2 指定多个聚合函数

对所有数据，同时做求和和平均值计算

pd.pivot_table(df,values=["D","E"], 
               index=["A"], 
               columns=["C"],
               aggfunc=[np.sum,np.mean])

2.3 各value列指定不同聚合函数

对D列的值做求和，对E列的值计算平均值

pd.pivot_table(df,values=["D","E"], 
               index=["A"], 
               columns=["C"],
               aggfunc={"D":np.sum,"E":np.mean})

文章标签：

Python

Pandas之八Reshaping（二）

1. Pivot

1.1 只指定必填参数

1.2 指定所有参数

2. Pivot Table

2.1 指定一个聚合函数

2.2 指定多个聚合函数

2.3 各value列指定不同聚合函数

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Pandas之八Reshaping（二）

1. Pivot

1.1 只指定必填参数

1.2 指定所有参数

2. Pivot Table

2.1 指定一个聚合函数

2.2 指定多个聚合函数

2.3 各value列指定不同聚合函数

热门文章

最新文章

相关课程

相关电子书