Pandas中通过Pivot_table实现长表转化为宽表

简介: Pandas中通过Pivot_table实现长表转化为宽表

首先,长表和宽表的区别。简单说就是长表长,宽表宽。对于某一个特征而言,如果一个表中把学科存储在某一个列中,那么它就是关于学科的长表;
学科 成绩
数学 90
英语 80
语文 85

如果把学科作为列名,列中的元素是学科成绩,那么这个表是关于学科的宽表。
数学 英语 语文
90 80 85

显然这两个表数据完全等价,只是展现不同。

pandas针对长宽表的变形操作设计了一些有关的变形函数。例如pivot,pivot_table等。pivot的使用依赖于唯一性条件,那如果不满足唯一性条件,那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值,否则就无法通过pivot函数来完成。这时候直接使用pivot_table就比较方便。

pandas中提供了pivot_table函数:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html
定义如下:
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)
其中的aggfunc参数就是使用的聚合函数。上述场景可以如下写出:

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",

                     "bar", "bar", "bar", "bar"],
               "B": ["one", "one", "one", "two", "two",
                     "one", "one", "two", "two"],
               "C": ["small", "large", "large", "small",
                     "small", "large", "small", "small",
                     "large"],
               "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
               "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})

table = pd.pivot_table(df, values='D', index=['A', 'B'],

                columns=['C'], aggfunc=np.sum)

table

结果如下:

C    large    small

A B
bar one 4.0 5.0
two 7.0 6.0
foo one 4.0 1.0
two NaN 6.0

pivot_table具有边际汇总的功能,可以通过设置margins=True来实现,其中边际的聚合方式与aggfunc中给出的聚合方法一致。
table = pd.pivot_table(df, values='D', index=['A', 'B'],

                columns=['C'], aggfunc=np.sum,margins=True)

table
结果如下:

C    large    small    All

A B
bar one 4.0 5.0 9
two 7.0 6.0 13
foo one 4.0 1.0 5
two NaN 6.0 6
All 15.0 18.0 33

pivot_table可以为不同列设置不同的汇总函数,例如:
table = pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],

                aggfunc={'D': np.sum,
                         'E': [min, max, np.sum]})

table

D    E

sum max min sum
A C
bar large 11 9 6 15
small 11 9 8 17
foo large 4 5 4 9
small 7 6 2 13

相关文章
|
6月前
|
数据挖掘 索引 Python
【100天精通Python】Day60:Python 数据分析_Pandas高级功能-数据透视表pivot_table()和数据交叉表crosstab()常用功能和操作
【100天精通Python】Day60:Python 数据分析_Pandas高级功能-数据透视表pivot_table()和数据交叉表crosstab()常用功能和操作
107 0
|
数据挖掘 索引 Python
利用python/pandas/numpy做数据分析(三)-透视表pivot_table
透视表,根据一个或多个键进行聚合,并根据行列上的分组键将数据分配到各个矩形区域中. import numpy as np data=pd.
1972 0
|
28天前
|
数据格式 Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数转换数据格式。示例代码展示了如何通过`melt()`转为长格式,再用`pivot()`恢复为宽格式。输入数据是包含'Name'和'Age'列的DataFrame,最终结果经过转换后呈现出不同的布局。
39 6
|
29天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,其DataFrame数据结构便于数据操作。筛选与过滤数据主要包括:导入pandas,创建DataFrame,通过布尔索引、`query()`或`loc[]`、`iloc[]`方法筛选。
|
29天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名?
Pandas在Python中提供数据排序和排名功能。使用`sort_values()`进行排序,如`df.sort_values(by='A', ascending=False)`进行降序排序;用`rank()`进行排名,如`df['A'].rank(ascending=False)`进行降序排名。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`。
23 6
|
30天前
|
索引 Python
如何在Python中使用Pandas库进行季节性调整?
Pandas库在Python中支持季节性调整,通过`seasonal_decompose`函数实现。步骤包括:导入Pandas和statsmodels模块,准备时间序列DataFrame,调用函数分解数据为趋势、季节性和残差,可选地分析或绘制这些部分,以及根据需求去除季节性影响(原始数据减去季节性成分)。这是基础的季节性调整流程,可按实际需求调整。
47 0
|
30天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行/列;3) `fillna()`用常数、前/后一个值填充;4) `interpolate()`插值填充。根据需求选择合适的方法处理数据缺失值。
15 0
|
30天前
|
索引 Python
如何使用Python的Pandas库进行数据合并和拼接?
【2月更文挑战第28天】【2月更文挑战第103篇】如何使用Python的Pandas库进行数据合并和拼接?
|
1月前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
16 0