DataFrame(14):对比MySQL学习“Pandas的groupby分组聚合”(超详细)(一)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: DataFrame(14):对比MySQL学习“Pandas的groupby分组聚合”(超详细)(一)

1、MySQL和Pandas做分组聚合的对比说明

1)都是用来处理表格数据

 不管是mysql,还是pandas,都是处理像excel那样的二维表格数据的。对于一个二维表,每一行都可以看作是一条记录,每一列都可以看作是字段。


2)分组聚合的风格不同

 学过mysql的人都知道,mysql在做数据处理和统计分析的时候,有一个很大的痛点:语法顺序和执行顺序不一致,这就导致很多初学者很容易写错sql语句。

 业界处理像excel那样的二维表格数据,通常有如下两种风格:


DSL风格:使用面向对象的方式来操作,pandas就是采用这种方式,通俗说就是“语法顺序和执行顺序一致”。

SQL风格:写sql语句来处理。

3)从代码角度,说明两者的不同

① mysql

语法顺序:


SELECT Column1, Column2, mean(Column3), sum(Column4)  
FROM SomeTable  
WHERE Condition 1  
GROUP BY Column1, Column2  
HAVING Condition2


逻辑执行顺序:


from...where...group...select...having...limit


② pandas

语法顺序和逻辑执行顺序:


df[Condition1].groupby([Column1,Column2],as_index=False).agg({Column3: "mean",Column4:"sum"})


③ 图示说明

image.png


首先from相当于取出MySQL中的一张表,对比pandas就是得到了一个df表对象。

然后就是执行where筛选,对比pandas就相当于写一个condition1过滤条件,做一个分组前的筛选筛选。

接着就是执行group分组条件,对比pandas就是写一个groupby条件进行分组。

再接着就是执行select条件,聚合函数就是写在select后面的,对比pandas就是执行agg()函数,在其中针对不同的列执行count、max、min、sum、mean聚合函数。

最后执行的是having表示分组后的筛选,在pandas中,通过上图可以发现我们得到了一个df1对象,针对这个df1对象,我们再做一次筛选,也表示分组后的筛选。

综上所述:只要你的逻辑想好了,在pandas中,由于语法顺序和逻辑执行顺序是一致的,你就按照逻辑顺序写下去,就很容易了。

4)用一个例子讲述MySQL和Pandas分组聚合

① 求不同deptno(部门)下,sal(工资)大于8000的部门、工资;

image.png


② mysqi中代码执行如下

select deptno,sum(sal) sums
from emp
group by deptno
having sums > 9000;


结果如下:

image.png


③ pandas中代码执行如下

df = pd.read_excel(r"C:\Users\黄伟\Desktop\emp.xlsx")
display(df)
df = df.groupby("deptno",as_index=False).agg({"sal":"sum"})
display(df)
df1 = df[df["sal"]>9000]
display(df1)


结果如下:

image.png

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
16天前
|
存储 数据挖掘 数据处理
掌握Pandas核心数据结构:Series与DataFrame的四种创建方式
本文介绍了 Pandas 库中核心数据结构 Series 和 DataFrame 的四种创建方法,包括从列表、字典、标量和 NumPy 数组创建 Series,以及从字典、列表的列表、NumPy 数组和 Series 字典创建 DataFrame,通过示例详细说明了每种创建方式的具体应用。
113 67
|
3月前
|
SQL 索引 Python
Pandas中DataFrame合并的几种方法
Pandas中DataFrame合并的几种方法
233 0
|
2天前
|
存储 数据挖掘 索引
Pandas数据结构:Series与DataFrame
本文介绍了 Python 的 Pandas 库中两种主要数据结构 `Series` 和 ``DataFrame`,从基础概念入手,详细讲解了它们的创建、常见问题及解决方案,包括数据缺失处理、数据类型转换、重复数据删除、数据筛选、排序、聚合和合并等操作。同时,还提供了常见报错及解决方法,帮助读者更好地理解和使用 Pandas 进行数据分析。
28 10
|
16天前
|
存储 数据挖掘 索引
Pandas Series 和 DataFrame 常用属性详解及实例
Pandas 是 Python 数据分析的重要工具,其核心数据结构 Series 和 DataFrame 广泛应用。本文详细介绍了这两种结构的常用属性,如 `index`、`values`、`dtype` 等,并通过具体示例帮助读者更好地理解和使用这些属性,提升数据分析效率。
33 4
|
1月前
|
SQL 数据采集 数据可视化
Pandas 数据结构 - DataFrame
10月更文挑战第26天
47 2
Pandas 数据结构 - DataFrame
|
1月前
|
Python
|
1月前
|
SQL NoSQL 关系型数据库
2024Mysql And Redis基础与进阶操作系列(5)作者——LJS[含MySQL DQL基本查询:select;简单、排序、分组、聚合、分组、分页等详解步骤及常见报错问题所对应的解决方法]
MySQL DQL基本查询:select;简单、排序、分组、聚合、分组、分页、INSERT INTO SELECT / FROM查询结合精例等详解步骤及常见报错问题所对应的解决方法
|
1月前
|
SQL NoSQL 关系型数据库
|
3月前
|
算法 关系型数据库 MySQL
MySQL高级篇——排序、分组、分页优化
排序优化建议、案例验证、范围查询时索引字段选择、filesort调优、双路排序和单路排序、分组优化、带排序的深分页优化
MySQL高级篇——排序、分组、分页优化
|
3月前
|
数据挖掘 数据处理 Python
Pandas中的数据聚合神器:agg 方法
Pandas中的数据聚合神器:agg 方法
104 0