数据分析-Pandas分组聚合

简介: 数据分析-Pandas分组聚合

5ea60231654f44bf8ffaf90ddbc30075.png


  • 行索引、列索引、条件索引

  • 分组聚合

Groupby


import pandas as pd
df = pd.read_csv("https://cdn.coggle.club/Pokemon.csv")
df.head(5)


aa7e3bb4f9274f6dad19fb15bfaca5e4.png

# 迭代打印所有的分组数据
for tmp_df in df.groupby('Type 1'):
    # key, 表格
    print(tmp_df[0], tmp_df[1].shape)

fcae8a1e1595407199c771129129d99a.png


bug有69行,12列。得到一组新的对应值。


1. # 根据Type 1分组统计HP的最大值
2. df.groupby("Type 1")["HP"].max()

e7b2b27ba4a84709ad6be2297ef56ac3.png

1. 
# 根据Type 1分组统计Legendary的取值个数
2. df.groupby("Type 1")["Legendary"].value_counts()


apply

# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(np.max)
# df.groupby("Type 1")["HP"].max()
# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(lambda x: np.max(x))


和上面的用法一样。


1. # 根据Type 1分组统计HP的中位数
2. df.groupby("Type 1")["HP"].apply(lambda x: np.percentile(x, 0.5))


agg


对多个统计值进行聚合。


df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
# df.groupby("Type 1")["HP"].max()

2fba82777db84e26a252de316a03e22c.png

agg  更高效。


# df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
df.groupby("Type 1").agg({
    'HP': ['mean', 'max', 'min'],
    'Attack': ['mean', 'max', 'min'],
})


transform


这俩个代码意义相同,结果一样。


1. df["Type 1"].map(
2.     df.groupby("Type 1")["HP"].max() # series 【index】
3. )


df.groupby("Type 1")["HP"].transform('max') # 返回的就是和样本个数一样多的一个特征!

7fe52d72785d41c4801b69d415143360.png

目录
相关文章
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
81 22
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
154 73
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
136 71
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
93 5
|
2月前
|
数据挖掘 数据处理 数据库
Pandas数据聚合:groupby与agg
Pandas库中的`groupby`和`agg`方法是数据分析中不可或缺的工具,用于数据分组与聚合计算。本文从基础概念、常见问题及解决方案等方面详细介绍这两个方法的使用技巧,涵盖单列聚合、多列聚合及自定义聚合函数等内容,并通过代码案例进行说明,帮助读者高效处理数据。
130 32
|
3月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
3月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
3月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
3月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
72 2
|
3月前
|
Python