Pandas中通过Pivot_table实现长表转化为宽表

简介: Pandas中通过Pivot_table实现长表转化为宽表

首先,长表和宽表的区别。简单说就是长表长,宽表宽。对于某一个特征而言,如果一个表中把学科存储在某一个列中,那么它就是关于学科的长表;
学科 成绩
数学 90
英语 80
语文 85

如果把学科作为列名,列中的元素是学科成绩,那么这个表是关于学科的宽表。
数学 英语 语文
90 80 85

显然这两个表数据完全等价,只是展现不同。

pandas针对长宽表的变形操作设计了一些有关的变形函数。例如pivot,pivot_table等。pivot的使用依赖于唯一性条件,那如果不满足唯一性条件,那么必须通过聚合操作使得相同行列组合对应的多个值变为一个值,否则就无法通过pivot函数来完成。这时候直接使用pivot_table就比较方便。

pandas中提供了pivot_table函数:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html
定义如下:
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)
其中的aggfunc参数就是使用的聚合函数。上述场景可以如下写出:

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",

                     "bar", "bar", "bar", "bar"],
               "B": ["one", "one", "one", "two", "two",
                     "one", "one", "two", "two"],
               "C": ["small", "large", "large", "small",
                     "small", "large", "small", "small",
                     "large"],
               "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
               "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})

table = pd.pivot_table(df, values='D', index=['A', 'B'],

                columns=['C'], aggfunc=np.sum)

table

结果如下:

C    large    small

A B
bar one 4.0 5.0
two 7.0 6.0
foo one 4.0 1.0
two NaN 6.0

pivot_table具有边际汇总的功能,可以通过设置margins=True来实现,其中边际的聚合方式与aggfunc中给出的聚合方法一致。
table = pd.pivot_table(df, values='D', index=['A', 'B'],

                columns=['C'], aggfunc=np.sum,margins=True)

table
结果如下:

C    large    small    All

A B
bar one 4.0 5.0 9
two 7.0 6.0 13
foo one 4.0 1.0 5
two NaN 6.0 6
All 15.0 18.0 33

pivot_table可以为不同列设置不同的汇总函数,例如:
table = pd.pivot_table(df, values=['D', 'E'], index=['A', 'C'],

                aggfunc={'D': np.sum,
                         'E': [min, max, np.sum]})

table

D    E

sum max min sum
A C
bar large 11 9 6 15
small 11 9 8 17
foo large 4 5 4 9
small 7 6 2 13

相关文章
|
数据挖掘 索引 Python
【100天精通Python】Day60:Python 数据分析_Pandas高级功能-数据透视表pivot_table()和数据交叉表crosstab()常用功能和操作
【100天精通Python】Day60:Python 数据分析_Pandas高级功能-数据透视表pivot_table()和数据交叉表crosstab()常用功能和操作
224 0
|
数据挖掘 索引 Python
利用python/pandas/numpy做数据分析(三)-透视表pivot_table
透视表,根据一个或多个键进行聚合,并根据行列上的分组键将数据分配到各个矩形区域中. import numpy as np data=pd.
2038 0
|
25天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
59 0
|
3月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
81 0
|
26天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
32 2
|
5月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
433 0
|
2月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
87 3
|
2月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
42 1
|
3月前
|
机器学习/深度学习 数据采集 监控
Pandas与Matplotlib:Python中的动态数据可视化
Pandas与Matplotlib:Python中的动态数据可视化