备案控制台

开发者社区开发与运维文章正文

数据分析-Pandas分组聚合

2023-02-14 96

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分析-Pandas分组聚合

行索引、列索引、条件索引
分组聚合

Groupby

import pandas as pd
df = pd.read_csv("https://cdn.coggle.club/Pokemon.csv")
df.head(5)

# 迭代打印所有的分组数据
for tmp_df in df.groupby('Type 1'):
    # key， 表格
    print(tmp_df[0], tmp_df[1].shape)

bug有69行，12列。得到一组新的对应值。

1. # 根据Type 1分组统计HP的最大值
2. df.groupby("Type 1")["HP"].max()

1. 
# 根据Type 1分组统计Legendary的取值个数
2. df.groupby("Type 1")["Legendary"].value_counts()

apply

# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(np.max)
# df.groupby("Type 1")["HP"].max()

# 根据Type 1分组统计HP的最大值
df.groupby("Type 1")["HP"].apply(lambda x: np.max(x))

和上面的用法一样。

1. # 根据Type 1分组统计HP的中位数
2. df.groupby("Type 1")["HP"].apply(lambda x: np.percentile(x, 0.5))

agg

对多个统计值进行聚合。

df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
# df.groupby("Type 1")["HP"].max()

agg 更高效。

# df.groupby("Type 1")["HP"].agg(['mean', 'min', 'max']) 
df.groupby("Type 1").agg({
    'HP': ['mean', 'max', 'min'],
    'Attack': ['mean', 'max', 'min'],
})

transform

这俩个代码意义相同，结果一样。

1. df["Type 1"].map(
2.     df.groupby("Type 1")["HP"].max() # series 【index】
3. )

df.groupby("Type 1")["HP"].transform('max') # 返回的就是和样本个数一样多的一个特征！

文章标签：

Python

数据挖掘

索引

关键词：

Pandas聚合

数据分析pandas

Pandas分组聚合

Pandas分组

Pandas数据分析

Lingxw_w

目录

相关文章

土木林森

|

1月前

|

数据采集存储数据挖掘

Python数据分析：Pandas库的高效数据处理技巧

【10月更文挑战第27天】在数据分析领域，Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧，帮助数据分析师快速处理复杂数据集，提高工作效率。

土木林森

75 0 0

长梦

|

3天前

|

数据挖掘数据处理数据库

Pandas数据聚合：groupby与agg

Pandas库中的`groupby`和`agg`方法是数据分析中不可或缺的工具，用于数据分组与聚合计算。本文从基础概念、常见问题及解决方案等方面详细介绍这两个方法的使用技巧，涵盖单列聚合、多列聚合及自定义聚合函数等内容，并通过代码案例进行说明，帮助读者高效处理数据。

长梦

58 32 32

cqtianxin1

|

1月前

|

Python

Pandas 常用函数-数据分组和聚合

10月更文挑战第28天

cqtianxin1

25 4 4

东方睿赢

|

1月前

|

机器学习/深度学习数据采集数据挖掘

解锁 Python 数据分析新境界：Pandas 与 NumPy 高级技巧深度剖析

Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程，以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据，为决策提供支持。

东方睿赢

47 2 2

土木林森

|

1月前

|

存储数据挖掘数据处理

Python数据分析：Pandas库的高效数据处理技巧

【10月更文挑战第26天】Python 是数据分析领域的热门语言，Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧，并通过示例代码展示其实际应用。

土木林森

46 2 2

一缕微风绕指柔

|

1月前

|

数据采集数据可视化数据挖掘

Python数据分析：Pandas库实战指南

Python数据分析：Pandas库实战指南

一缕微风绕指柔

38 0 0

我们是幸福一家人

|

1月前

|

并行计算数据挖掘大数据

Python数据分析实战：利用Pandas处理大数据集

Python数据分析实战：利用Pandas处理大数据集

我们是幸福一家人

127 0 0

代码bug生产队

|

1月前

|

数据采集数据可视化数据挖掘

利用Python进行数据分析：Pandas库实战指南

利用Python进行数据分析：Pandas库实战指南

代码bug生产队

82 0 0

gudanhero2018

|

3月前

|

机器学习/深度学习数据处理 Python

从NumPy到Pandas：轻松转换Python数值库与数据处理利器

从NumPy到Pandas：轻松转换Python数值库与数据处理利器

gudanhero2018

110 0 0

半截诗

|

2月前

|

机器学习/深度学习并行计算大数据

【Python篇】深入挖掘 Pandas：机器学习数据处理的高级技巧

【Python篇】深入挖掘 Pandas：机器学习数据处理的高级技巧

半截诗

99 3 3

热门文章

最新文章

小白学数据分析----->解析在线平高比

如何通过数据分析来衡量游戏中的用户体验

非数据科学家如何进行数据分析?

小白学数据分析----->怎么看待数据处理

小白学数据分析----->付费渗透率再研究

“打破孤岛”用多维交叉工具做有理有据的数据分析

使用Python进行数据分析：探索不同电影《消失的她》和《八角笼中》票房数据对比

从博客专栏想到的数据分析

小白学数据分析-----> 你的游戏数据分析做好了吗？

小白学数据分析----->从购买记录分析道具支付环节

如何利用Python中的Pandas库进行数据分析和可视化

【新手解答】Python中Pandas的初学者笔记

Python网络数据抓取（5）：Pandas

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。

在Pandas中，利用boolean indexing可按条件过滤DataFrame

【Python机器学习专栏】使用Pandas处理机器学习数据集

使用Python的pandas和matplotlib库绘制移动平均线（MA）示例

Python数据分析中的Pandas库应用指南

数据分析综合案例讲解，一文搞懂Numpy，pandas，matplotlib，seaborn技巧方法

相关课程

更多

实时数据分析：使用Flink实时发现最热Github项目

日志服务 SLS 可观测数据分析平台介绍

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

相关电子书

更多

Python第四讲——使用IPython/Jupyter Notebook与日志服务玩转超大规模数据分析与可视化

中文：即学即用的Pandas入门与时间序列分析

即学即用的Pandas入门与时间序列分析

相关实验场景

更多

倚天大数据电商数据分析快速实践

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

PolarDB MySQL HTAP：实时数据分析加速

助力游戏运营数据分析

下一篇

DataWorks售前咨询