Pandas进阶--map映射,分组聚合和透视pivot_table详解

简介: Pandas进阶--map映射,分组聚合和透视pivot_table详解

1.Pandas的map映射

(1)映射

  • 映射就是指给一组数据中的每一个元素绑定一个固定的数据
    给Series中的一组数据提供另外一种表现方式,或者说给其绑定一组指定的标签或字符串

案例1:

创建一个df,两列分别是姓名和薪资。然后给其名字起对应的英文名,然后将英文的性别统一转换为中文的性别

data = pd.DataFrame({“name”:[“tom”,“jeery”,“Alex”,“Jason”],“salary”:[10000,20000,15000,25000],“gender”:[“male”,“female”,“male”,“female”]})
data

做映射

dic = {
“male”:“男”,
“female”:“女”
}

map可以将gender这组数据中的每个元素根据dic表示的关系,进行映射转换

data[“性别”]= data[“gender”].map(dic)

data

案例2:

将文本中的名字映射出英文名字

首先根据本地文件创建个df

#给每个人起一个英文名,将其作为表格中新的一列存在
dic = {
‘张三’:‘Tom’,
‘李四’:‘Jerry’,
‘王五’:‘Jay’
}#映射关系表
df[‘ename’] = df[‘name’].map(dic)
df

(2)map充当运算工具

#将每一个人的税后薪资进行计算:超过5000部分的钱需要缴纳25%的税
def after_sal(s): #参数s就依次表示每一个人的薪资数据
return s - (s-5000)*0.25
data[‘after_sal’] = data[‘salary’].map(after_sal)
data

总结:map传入的参数是个字典,是做映射的。传入的是个函数名,是做运算用的

可以用匿名函数

#匿名函数写法
data[‘after_sal’] = data[‘salary’].map(lambda s: s - (s-5000)*0.25)
data

当然也可以用apply,新版的没有axis参数了

apply运算效率远远高于map,在数据数量级比较大的时候,经常用apply


data[“after_sal”]=data[“salary”].apply(lambda x: x - (x - 5000)*0.25)

data



案例3:

将每个人的入职日期加两年,目前入职日期是字符串类型数据

data = pd.DataFrame({“name”:[“tom”,“jeery”,“Alex”,“Jason”],“salary”:[10000,20000,15000,25000],“gender”:[“male”,“female”,“male”,“female”],“hiredate”:[“2020-10-10”,“2012–9-12”,“2021–4-23”,“2022-05-16”]})
data

我们用apply来做

获取入职日期,根据- 做切分得到年份,加2

def get_date(x):
year,month,day = x.split(“-”)
year = int(year)+2
return str(year)+“-”+month+“-”+day
data[‘hiredate’] = data[‘hiredate’].apply(get_date)
data

用map也可以

def get_date(x):
year,month,day = x.split(“-”)
year = int(year)+2
return str(year)+“-”+month+“-”+day
data[‘hiredate’] = data[‘hiredate’].map(get_date)
data

2.数据分组和透视

分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况

数据分类处理的核心:

groupby()函数

groups属性查看分组情况


(1)分组统计 - groupby功能 是pandas最重要的功能


① 根据某些条件将数据拆分成组

② 对每个组独立应用函数

③ 将结果合并到一个数据结构中

Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)
api:

学习要善于掌握规律,你不管学什么函数,都要先学习其功能,参数,返回值都是啥。这样才能比较清晰的运用


参数详解:

by参数用于指定要进行分组的列名,可以是一个列名或者多个列名的列表
axis参数用于指定分组方向,0表示行方向,1表示列方向
level参数用于指定分组级别
as_index参数用于指定分组后的结果是否作为DataFrame的索引
sort参数用于指定分组结果是否按照分组列进行排序
group_keys参数用于指定分组后是否保留分组键
squeeze参数用于指定是否移除单元素的分组
observed参数用于指定是否观察数据的层次结构

import pandas as pd

#加载数据
df = pd.read_csv(‘fruits.csv’).drop(columns=‘Unnamed: 0’)
df

#想根据不同水果种类对数据进行分组
df.groupby(by=‘item’).groups #使用groupby分组后,调用groups查看分组的结果
Apple是 第0行和第5行。Banada 是第1行和第3行。Orange是第2行和第4行

#计算不同水果的平均价格
df.groupby(by=‘item’)[‘price’] #单独取出每组数据的价格数据
mean_price = df.groupby(by=‘item’)[‘price’].mean() #求均值
mean_price

to_dict() 可以将dataframe转换为dict

mean_price.to_dict()

#将每种水果的平均价格汇总到原始表格中
现在无法直接将平均价格series数据直接插入到原始数据,因为数据结构不一样

此时就可以用到我们之前学的map

dic = {
‘Apple’:3.00,
‘Banana’:2.75,
‘Orange’:3.50
}
#dic = mean_price.to_dict()

df[‘mean_price’] = df[‘item’].map(dic)
df

#计算不同颜色水果的最大重量
color_max_weight = df.groupby(by=‘color’)[‘weight’].max()
color_max_weight

将不同颜色水果的最大重量也汇总到原始数据中
df[‘max_weight’] = df[‘color’].map(color_max_weight.to_dict())
df


使用groupby分组后,也可以使用功能transform和apply提供自定义函数实现更多运算

apply和transform的区别:

transform返回的结果是经过映射后的结果

apply返回的是没经过映射的结果


案例:

计算每种水果最大价格和最低价格的差值

def func(x): # 此时的x是每种水果的所有价格

def func(x): # 此时的x是每种水果的所有价格
return x.max()-x.min()

df [‘price_cha’] = df.groupby(by=“item”)[‘price’].transform(func)
df

此时,用apply就得不到值

apply得到的值是:

#计算每种水果最大价格和最低价格的差值

def func(x): # 此时的x是每种水果的所有价格
return x.max()-x.min()

df.groupby(by=‘item’)[‘price’].apply(func)

能得到结果,但是没经过映射,没法直接添加到原始数据。还需要转化成字典,使用map才能映射

#计算每种水果最大价格和最低价格的差值

def func(x): # 此时的x是每种水果的所有价格
return x.max()-x.min()

dic = df.groupby(by=‘item’)[‘price’].apply(func).to_dict()

df[‘price_cha’] = df[‘item’].map(dic)
df

(2)聚合agg

对分组后的结果进行多种不同形式的聚合操作

#求每种水果的平均价格和最高价格、最低价格
df.groupby(by=‘item’)[‘price’].agg([‘mean’,‘max’,‘min’])

3.透视表pivot_table

透视表是一种可以对数据动态排布并且分类汇总的表格格式。

或许大多数人都在Excel使用过数据透视表,也体会到它的强大功能,而在pandas中它被称作pivot_table。


(1)参数

values:被计算的数据项,设定需要被聚合操作的列(需要显示的列) 对哪个值进行计算
index:每个pivot_table必须拥有一个index,必选参数,设定数据的行索引,可以设置多层索引,多次索引时按照需求确定索引顺序。 根据什么分类
columns:必选参数,设定列索引,用来显示字符型数据,和fill_value搭配使用。
aggfunc:聚合函数, pivot_table后新dataframe的值都会通过aggfunc进行运算。默认numpy.mean求平均。
fill_values:填充NA值(设定缺省值)。默认不填充,可以指定。
margins:添加行列的总计,默认FALSE不显示。TRUE显示。
dropna:如果整行都为NA值,则进行丢弃,默认TRUE丢弃。FALSE时,被保留。
margins_name:margins = True 时,设定margins 行/列的名称。‘all’ 默认值

#加载数据
df = pd.read_csv(‘透视表-篮球赛.csv’)
df.head(3)

#根据对手分类,计算每个球队的平均分

新版的不能对字符串的列进行计算

必须指定数字的列

df.pivot_table(index=‘对手’,values=‘得分’,aggfunc=‘mean’) #aggfunc默认是mean,求平均

(2)根据胜负字段进行数据的分组,然后对每组数据进行均值计算

df.pivot_table(index=‘对手’,values=[‘命中’,‘投篮数’,‘投篮命中率’,‘3分命中率’,‘篮板’,‘助攻’,‘得分’])


默认aggfunc只能举个一个参数,要想聚合多个参数,使用字典 。values这个字段就不要了

(3)根据主客场字段进行数据分类后,对分类后的得分字段求最大值、篮板字段求均值和助攻字段求累加和操作


df.pivot_table(index=‘主客场’,aggfunc={‘得分’:‘max’,‘篮板’:‘mean’,‘助攻’:‘sum’})

(3)#获取所有队主客场的总得分

df.pivot_table(index=‘主客场’,values=‘得分’,aggfunc=‘sum’)

(4)查看主客场下的总得分都是哪些具体球队的得分构成的

df.pivot_table(index=‘主客场’,values=‘得分’,aggfunc=‘sum’,columns=‘对手’)

(5)#查看主客场下的总得分都是哪些具体球队的得分构成的,对于空值,用0填充


df.pivot_table(index=‘主客场’,values=‘得分’,aggfunc=‘sum’,columns=‘对手’,fill_value=0)

(6)多条件分类汇总操作

df.pivot_table(index=[‘主客场’,‘对手’],values=‘得分’,aggfunc=‘sum’)



相关文章
|
23天前
|
存储 JavaScript 前端开发
JavaScript进阶-Map与Set集合
【6月更文挑战第20天】JavaScript的ES6引入了`Map`和`Set`,它们是高效处理集合数据的工具。`Map`允许任何类型的键,提供唯一键值对;`Set`存储唯一值。使用`Map`时,注意键可以非字符串,用`has`检查键存在。`Set`常用于数组去重,如`[...new Set(array)]`。了解它们的高级应用,如结构转换和高效查询,能提升代码质量。别忘了`WeakMap`用于弱引用键,防止内存泄漏。实践使用以加深理解。
|
2月前
|
数据可视化 数据挖掘 数据处理
进阶 pandas DataFrame:挖掘高级数据处理技巧
【5月更文挑战第19天】本文介绍了Pandas DataFrame的高级使用技巧,包括数据重塑(如`pivot`和`melt`)、字符串处理(如提取和替换)、日期时间处理(如解析和时间序列操作)、合并与连接(如`merge`和`concat`),以及使用`apply()`应用自定义函数。这些技巧能提升数据处理效率,适用于复杂数据分析任务。推荐进一步学习和探索Pandas的高级功能。
|
2月前
|
数据采集 数据可视化 数据挖掘
使用Pandas对Data列进行基于顺序的分组排列
使用Pandas对Data列进行基于顺序的分组排列
39 0
|
8天前
|
存储 算法 C++
C++一分钟之-扁平化映射与unordered_map
【7月更文挑战第5天】C++的STL `unordered_map`是键值对的快速查找容器,基于哈希表。常见问题包括哈希函数选择、键类型限制、内存管理和迭代顺序不确定性。要避免问题,需优化哈希函数,确保自定义类型支持哈希和比较操作,合理管理内存,不依赖迭代顺序。提供的代码示例展示了如何为自定义类型定义哈希函数并操作`unordered_map`。正确使用能提升代码效率。
21 0
C++一分钟之-扁平化映射与unordered_map
|
1月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之要存储用户的下单所有产品,然后查询时要进行产品分组的,一般这种字段要使用ARRAY还是MAP
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
13天前
|
存储 算法 C++
C++一分钟之-扁平化映射与unordered_map
【6月更文挑战第30天】`std::unordered_map`在C++中提供O(1)平均操作的无序键值对存储。文章讨论了扁平化映射,用于简化多级数据结构,例如将配置文件展平。常见问题包括哈希碰撞、内存管理和键类型选择。示例展示了如何创建和访问扁平化配置映射。通过理解哈希冲突解决、内存管理和键要求,可以优化使用。
21 0
|
22天前
|
SQL 数据可视化 数据挖掘
Pandas透视表及应用(二)
这个文本是关于使用Pandas进行数据分析的教程,主要关注会员数据的处理和业务指标的计算。
|
22天前
|
监控 数据可视化 数据挖掘
Pandas透视表及应用(一)
数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。
|
2月前
|
JavaScript
js Array map映射对象多个属性
js Array map映射对象多个属性
18 0