首先,长表和宽表的区别。简单说就是长表长,宽表宽。对于某一个特征而言,如果一个表中把学科存储在某一个列中,那么它就是关于学科的长表;
学科 成绩
数学 90
英语 80
语文 85
如果把学科作为列名,列中的元素是学科成绩,那么这个表是关于学科的宽表。
数学 英语 语文
90 80 85
显然这两个表数据完全等价,只是展现不同。
pandas针对长宽表的变形操作设计了一些有关的变形函数。例如pivot,pivot_table等。pivot的使用依赖于唯一性条件,那如果不满足唯一性条件,那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值,否则就无法通过pivot函数来完成。这时候直接使用pivot_table就比较方便。
pandas中提供了pivot_table函数:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html
定义如下:
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)
其中的aggfunc参数就是使用的聚合函数。上述场景可以如下写出:
import pandas as pd
import numpy as np
df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
"bar", "bar", "bar", "bar"],
"B": ["one", "one", "one", "two", "two",
"one", "one", "two", "two"],
"C": ["small", "large", "large", "small",
"small", "large", "small", "small",
"large"],
"D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
"E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})
table = pd.pivot_table(df, values='D', index=['A', 'B'],
columns=['C'], aggfunc=np.sum)
table
结果如下:
C large small
A B
bar one 4.0 5.0
two 7.0 6.0
foo one 4.0 1.0
two NaN 6.0
pivot_table具有边际汇总的功能,可以通过设置margins=True来实现,其中边际的聚合方式与aggfunc中给出的聚合方法一致。
table = pd.pivot_table(df, values='D', index=['A', 'B'],
columns=['C'], aggfunc=np.sum,margins=True)
table
结果如下:
C large small All
A B
bar one 4.0 5.0 9
two 7.0 6.0 13
foo one 4.0 1.0 5
two NaN 6.0 6
All 15.0 18.0 33
pivot_table可以为不同列设置不同的汇总函数,例如:
table = pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],
aggfunc={'D': np.sum,
'E': [min, max, np.sum]})
table
D E
sum max min sum
A C
bar large 11 9 6 15
small 11 9 8 17
foo large 4 5 4 9
small 7 6 2 13