数据分析-Pandas分组聚合

简介: 数据分析-Pandas分组聚合

5ea60231654f44bf8ffaf90ddbc30075.png


  • 行索引、列索引、条件索引

  • 分组聚合

Groupby


import pandas as pd
df = pd.read_csv("https://cdn.coggle.club/Pokemon.csv")
df.head(5)


aa7e3bb4f9274f6dad19fb15bfaca5e4.png

# 迭代打印所有的分组数据
for tmp_df in df.groupby('Type 1'):
    # key, 表格
    print(tmp_df[0], tmp_df[1].shape)

fcae8a1e1595407199c771129129d99a.png


bug有69行,12列。得到一组新的对应值。


1. # 根据Type 1分组统计HP的最大值
2. df.groupby("Type 1")["HP"].max()

e7b2b27ba4a84709ad6be2297ef56ac3.png

1. 
# 根据Type 1分组统计Legendary的取值个数
2. df.groupby("Type 1")["Legendary"].value_counts()


apply

# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(np.max)
# df.groupby("Type 1")["HP"].max()
# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(lambda x: np.max(x))


和上面的用法一样。


1. # 根据Type 1分组统计HP的中位数
2. df.groupby("Type 1")["HP"].apply(lambda x: np.percentile(x, 0.5))


agg


对多个统计值进行聚合。


df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
# df.groupby("Type 1")["HP"].max()

2fba82777db84e26a252de316a03e22c.png

agg  更高效。


# df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
df.groupby("Type 1").agg({
    'HP': ['mean', 'max', 'min'],
    'Attack': ['mean', 'max', 'min'],
})


transform


这俩个代码意义相同,结果一样。


1. df["Type 1"].map(
2.     df.groupby("Type 1")["HP"].max() # series 【index】
3. )


df.groupby("Type 1")["HP"].transform('max') # 返回的就是和样本个数一样多的一个特征!

7fe52d72785d41c4801b69d415143360.png

目录
相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
75 0
|
3天前
|
数据挖掘 数据处理 数据库
Pandas数据聚合:groupby与agg
Pandas库中的`groupby`和`agg`方法是数据分析中不可或缺的工具,用于数据分组与聚合计算。本文从基础概念、常见问题及解决方案等方面详细介绍这两个方法的使用技巧,涵盖单列聚合、多列聚合及自定义聚合函数等内容,并通过代码案例进行说明,帮助读者高效处理数据。
58 32
|
1月前
|
Python
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
47 2
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
46 2
|
1月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
3月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
110 0
|
2月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
99 3