需要源码请点赞关注收藏后评论区留言私信~~~
一、数据透视表
数据透视表(Pivot Table)是数据分析中常见的工具之一,根据一个或多个键值对数据进行聚合,根据列或行的分组键将数据划分到各个区域
在Pandas中,除了使用groupby对数据分组聚合实现透视功能外,还可以使用pivot_table函数实现
pivot_table函数格式: pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
表4-5. pivot_table函数主要参数及其说明
pivot_table默认计算均值
import pandas as pd import numpy as np data = pd.DataFrame({'k1':['a','b','a','a','c','c','b','a','c','a','b','c'],'k2':['one', 'two','three','two','one','one','three','one','two','three','one','two'], 'w':np.random.rand(12),'y':np.random.randn(12)}) print(data) print("------------------------------------------------") print(data.pivot_table(index = 'k1',columns = 'k2'))
分类汇总并求和
data.pivot_table(index = 'k1',columns = 'k2',aggfunc = 'sum')
交叉表是一种特殊的透视表,主要用于计算分组频率
crosstab的格式
crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)
crosstab主要参数及其说明
交叉表示例
pd.crosstab(data.k1,data.k2)
带参数margin
pd.crosstab(data.k1,data.k2,margins = True)
二、Pandas可视化
Pandas中集成了Matplotlib中的基础组件,让绘图更加便捷
DataFrame.plot除了Series中的参数外,还有一些独特选项 如下表所示
1 线形图
Pandas库中的Series和DataFrame中都有绘制各类图表的plot方法,默认绘制的都是线形图
通过DataFrame对象的plot方法可以为各列绘制一条线,并创建图例
线形图一般用于描述两组数据之间的趋势
import matplotlib.pyplot as plt %matplotlib inline s = pd.Series(np.random.normal(size = 10)) s.plot()
通过DataFrame对象的plot方法可以为各列绘制一条曲线 并创建好图例
df = pd.DataFrame({'normal':np.random.normal(size = 50),'gamma':np. random.gamma(1,size = 50)}) df.plot()
2 柱状图
柱状图一般描述各类别之间的关系,在Pandas中绘制柱状图只需在plot函数中加参数kind = ‘bar’,如果类别较多,可以绘制水平柱状图(kind = ‘barh’)
stu = {'name':['小明','王芳','赵平','李红','李涵'], 'sex':['male','female','female','female','male'], 'year':[1996,1997,1994,1999,1996]} data = pd.DataFrame(stu) print(data['sex'].value_counts()) print(data['sex'].value_counts().plot(kind = 'bar',rot = 30))
对DataFrame数据而言,每一行的值会成为一组
df = pd.DataFrame(np.random.randint(1,100,size = (3,3)),index = {'one','two','three'},columns = ['I1','I2','I3']) df.plot(kind = 'barh')
3 直方图和密度图
直方图用于频率分布,y轴为数值或比率。绘制直方图,可以观察数据值的大致分布规律。pandas中的直方图可以通过hist方法绘制
核密度估计是对真实密度的估计,其过程是将数据的分布近似为一组核(如正态分布)。通过plot函数的kind = ‘kde’可以进行绘制
wy = pd.Series(np.random.normal(size = 80)) s.hist(bins = 15,grid = False) wy = pd.Series(np.random.normal(size = 80)) s.plot(kind = 'kde')
4 散点图
散点图主要用来表现数据之间的规律
通过plot函数的kind = 'scatter'可以进行绘制
wd = pd.DataFrame(np.arange(10),columns = ['A']) wd['B'] = 2*wd['A']+4 wd.plot(kind = 'scatter',x = 'A',y = 'B')
创作不易 觉得有帮助请点赞关注收藏~~~