利用python/pandas/numpy做数据分析(三)-透视表pivot_table

简介: 透视表,根据一个或多个键进行聚合,并根据行列上的分组键将数据分配到各个矩形区域中.import numpy as npdata=pd.

透视表,根据一个或多个键进行聚合,并根据行列上的分组键将数据分配到各个矩形区域中.

import numpy as np
data=pd.DataFrame(np.arange(6).reshape((2,3)),
                 index=pd.Index(['ohio','color'], name='state'),
                columns=pd.Index(['one','two','three'], name='number')
                            )
data
number one two three
state
ohio 0 1 2
color 3 4 5

前两个参数分别作用于行和列的索引,最后一个参数用于填充dataframe的数据列的列名

data.pivot('one','two')

这里写图片描述

首先,它会设置一个新的索引( set_index() ),然后对索引排序( sort_index() ),最后调用 unstack 。以上的步骤合在一起就是 pivot 。

官方定义:
DataFrame.pivot_table(data, values=None, index=None, columns=None, aggfunc=’mean’, fill_value=None, margins=False, dropna=True, margins_name=’All’)

data: DataFrame对象
values: 显示的列的名字,可以应用aggfunc中的函数
index: 索引
columns: 可选的, 通过额外的方法来分割你所关心的实际值,然而aggfunc被应用到values上, aggfunc默认的是mean


下面来看干货:

打开dat表,分别为users, ratings, movies

import pandas as pd
unames=['user_id','gender','age','occupation','zip']
users=pd.read_table('C:\\Users\\ecaoyng\\Desktop\\work space\\Python\\py_for_analysis\\pydata-book-master\\ch02\\movielens\\users.dat',sep='::',header=None,names=unames)
users.head()

合并三个表:

data=pd.merge(pd.merge(ratings, users),movies)
data[:10]

这里写图片描述

最简单的透视表必须有一个数据帧和一个索引

pd.pivot_table(data, index=['movie_id'])[:10]

这里写图片描述

当然也可以建两个index

pd.pivot_table(data, index=['movie_id','occupation'])

这里写图片描述

pd.pivot_table(data, index=['movie_id','occupation'],values=['rating'])

这里写图片描述

pd.pivot_table(data, index=['movie_id','occupation'],values=['rating'],columns='gender')

这里写图片描述

可以看出和value的区别了吗?colume的值作为列名了。

之后我们要drop掉NAN的数据,

mean_ratings=mean_ratings.dropna(axis=0)
mean_ratings

其中官方dropna函数为DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False),其中axis : {0 or ‘index’, 1 or ‘columns’}, or tuple/list thereof
Pass tuple or list to drop on multiple axes,即axis=0表示删除行,axis=1表示删除列。
当然,也可以通过fillna将缺失值填充为所需要的。

之后我打算过滤掉评论不足250条的记录,其中size()得到含有各个电影分组大小的serise对象。

ratings_by_title=data.groupby('title').size()
type(ratings_by_title)

这里写图片描述

active_titles=ratings_by_title.index[ratings_by_title >= 250]
active_titles

得到的active_titles 是索引:
这里写图片描述

然后可以在mean_ratings中选择我们所需要的行了

mean_ratings.ix[active_titles][:10]

之后可以对female的评价执行降序排列

top_female_ratings=mean_ratings.sort_values(by='F',ascending=False)

为了观察男女差别最大的电影,可以加一列diff

mean_ratings['diff']=mean_ratings['M']-mean_ratings['F']

对diff进行排序

sorted_by_diff=mean_ratings.sort_values(by='diff')

这里写图片描述

男同志喜爱的电影

sorted_by_diff[::-1][:10]

[::-1] 表示取反

回到小费数据集

tips=pd.read_csv('C:\\Users\\ecaoyng\\Desktop\\work space\\Python\\py_for_analysis_code\\pydata-book-master\\ch08\\tips.csv')
tips[:5]

这里写图片描述

tips.pivot_table(index=['sex','smoker'])

这里写图片描述

tips['tip_pct']=tips['tip']/tips['total_bill']
tips[:6]

这里写图片描述

tips.pivot_table(['tip_pct','size'], index=['sex','day'],columns='smoker')

这里写图片描述

小技巧,先画出正题框架比如 columns 是列索引名, index是行索引名等

这里写图片描述

tips.pivot_table(['tip_pct','size'], index=['sex','day'],columns='smoker',margins=True)

这里写图片描述

tips.pivot_table(['tip_pct'], index=['sex','smoker'],columns='day',margins=True,aggfunc=len)

这里写图片描述

目录
相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
137 71
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
154 73
|
1天前
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
12 3
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
81 22
|
1月前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
47 2
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
93 5
|
3月前
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
3月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
6月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
110 2

推荐镜像

更多