数据分析-Pandas分组聚合

简介: 数据分析-Pandas分组聚合

5ea60231654f44bf8ffaf90ddbc30075.png


  • 行索引、列索引、条件索引

  • 分组聚合

Groupby


import pandas as pd
df = pd.read_csv("https://cdn.coggle.club/Pokemon.csv")
df.head(5)


aa7e3bb4f9274f6dad19fb15bfaca5e4.png

# 迭代打印所有的分组数据
for tmp_df in df.groupby('Type 1'):
    # key, 表格
    print(tmp_df[0], tmp_df[1].shape)

fcae8a1e1595407199c771129129d99a.png


bug有69行,12列。得到一组新的对应值。


1. # 根据Type 1分组统计HP的最大值
2. df.groupby("Type 1")["HP"].max()

e7b2b27ba4a84709ad6be2297ef56ac3.png

1. 
# 根据Type 1分组统计Legendary的取值个数
2. df.groupby("Type 1")["Legendary"].value_counts()


apply

# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(np.max)
# df.groupby("Type 1")["HP"].max()
# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(lambda x: np.max(x))


和上面的用法一样。


1. # 根据Type 1分组统计HP的中位数
2. df.groupby("Type 1")["HP"].apply(lambda x: np.percentile(x, 0.5))


agg


对多个统计值进行聚合。


df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
# df.groupby("Type 1")["HP"].max()

2fba82777db84e26a252de316a03e22c.png

agg  更高效。


# df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
df.groupby("Type 1").agg({
    'HP': ['mean', 'max', 'min'],
    'Attack': ['mean', 'max', 'min'],
})


transform


这俩个代码意义相同,结果一样。


1. df["Type 1"].map(
2.     df.groupby("Type 1")["HP"].max() # series 【index】
3. )


df.groupby("Type 1")["HP"].transform('max') # 返回的就是和样本个数一样多的一个特征!

7fe52d72785d41c4801b69d415143360.png

目录
相关文章
|
27天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
62 0
|
22天前
|
Python
|
21天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
38 2
|
28天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
34 2
|
19天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
19天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
2月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
56 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
3月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
81 0
|
2月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
88 3
|
2月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
42 1