MySQL中group by子句与having实例分析

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: MySQL中group by子句与having实例分析

group By语句从英文的字面意义上理解就是"根据(by)一定的规则进行分组(Group)"。它的作用是通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。


【1】语法格式与聚合函数

① group by语法

select [columns] from table_name [where..] group by [columns] [having ...]

在select指定的字段要么就要包含在Group By语句的后面,作为分组的依据;要么就要被包含在聚合函数中。

包含在GROUP BY 子句中的列不必包含在SELECT 列表中:

SELECT AVG(salary) FROM employeesGROUP BY department_id ;

在select指定的字段要么就要包含在Group By语句的后面,作为分组的依据;要么就要被包含在聚合函数中。

包含在GROUP BY 子句中的列不必包含在SELECT 列表中:

SELECT AVG(salary) FROM employeesGROUP BY department_id ;

在GROUP BY子句中包含多个列:

SELECT department_id dept_id, job_id, SUM(salary)
FROM employeesGROUP BY department_id, job_id ;

非法使用组函数

不能在WHERE 子句中使用组函数,可以在HAVING 子句中使用组函数。

SELECT department_id, AVG(salary)
FROM employees
WHERE AVG(salary) > 8000
GROUP BY department_id;
ORA-00934: group function is not allowed here

WHERE 子句中不能使用组函数


③ 常见的聚合函数

常见的聚合函数如下表所示:

image.png

count里面可以使用两种参数:* 代表统计记录,字段名代表统计对应的字段(NULL不统计)。

需要注意的是,count统计记录数,将会只返回一条记录,如下示例:

SELECT
  goods_type,price,COUNT(goods_type)
FROM
  tb_goods 

查询结果如下:


tb_goods表数据如下:


20181022195818493.jpg

【2】Having与Where的区别

where 子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据。where条件中不能包含聚合函数,可以使用where条件过滤出特定的行。

Having字句与where子句一样可以进行条件判断的,另外Having 子句通常用来筛选满足条件的组,即在分组之后过滤数据。条件中经常包含聚合函数,使用having 条件过滤出特定的组,也可以使用多个分组标准进行分组。


通常使用group by+having的时候会使用聚合函数,因为分组之后的列要么是聚合函数,要么是group by( 列)中的列。having后面要么跟聚合函数,要么跟select中的列。


group by 存在时,select中除了聚集函数外,所有的基本列必须是group by里面存在的。having同group by一起使用时,having过滤group by 分组后的数据,一般通过select语句里面的聚合函数进行过滤。


只使用group by

select goods_type,COUNT(goods_type) from tb_goods GROUP BY goods_type

查询结果如下:


使用having子句

SELECT
  goods_type,price
FROM
  tb_goods HAVING price>50

查询结果如下:


使用group by+having

SELECT
  goods_type,
  COUNT(goods_type)
FROM
  tb_goods
GROUP BY
  goods_type
HAVING
  avg(price) > 100 //这里使用聚合函数

查询结果如下:


【3】项目实例

从图片表中查出拥有1个以上机房的站址。

注意图片表,machine_room_id 不唯一,因为值为0时可能对应多个站址;site_id更不唯一了,因为肯定有多条记录对应同一个site_id。

思路如下:首先根据machine_room_id,site_id进行分组查询,然后从查询结果中根据site_id进行分组,然后查找count(site_id)>1 的site_id。

解释如下:首先进行联合分组查询,这样留下来的就是site_id +machine_room_id不重复的数据;再对site_id进行分组,查询记录数>1的site_id。请注意,题目要求是从图片表中查出拥有1个以上机房的站址。

code1:

select site_id,count(*) from (
-- code11
select site_id,machine_room_id  from tb_device_images 
where device_type='machineroom'  
group by machine_room_id ,site_id
-- code11
)t group by site_id HAVING count(*)>1;

code2:

select site_id,count(*) from (
-- code22
select site_id,machine_room_id  from tb_device_images 
where device_type='machineroom'  
group by machine_room_id // 注意区别在这里
-- code22
)t group by site_id HAVING count(*)>1;

对比 code1 和code2查询结果:

  • code1有41条结果,code2有40条结果;红色字体表示差异所在。

b0a3d0fbb69bc94796f52daa71f13017.png

那么是什么导致了差异呢?

我们看code11 和code22对比:

  • code22进行分组时只根据machine_room_id,这样就导致数据丢失,分析如下。

根据machine_room_id进行分组时 ,同一数据的记录只会保留一条。那么如图所示红色站址都是丢失的数据。


这里可能有疑问,为什么最后结果只差一条?这是因为11条红色site_id中,只有一条记录对应的site_id还有额外一条记录在下方,故HAVING count(*)>1查询时,其他十条都被过滤掉了。如果不加这个条件,那么差异将是10!!!

在此,也证明了group by定义规则的正确性,当你根据某列进行分组查询多列时,如该项目实例。如果查询多列,那么一定要保证查询列要么为聚合函数要么在分组条件中。

理想情况下,一个site_id对应一个_machine_room_id,且machine_room_id为unique,那么可以只根据machine_room_id进行分组。然后在从该次查询结果中 查找拥有一个以上机房的站址。


e4a8f5afebe1ee90c90015f79df4257a.png

综上,根据分组查询时,要注意题目要求,sql中select后的参数,group by 条件参数,是否唯一,是否有having 要求等综合分析。


【4】GROUP_CONCAT(expr)

查看分组之后每组属性值列表。

如按照性别分组,分别查看男性和女性中的名字。

select GROUP_CONCAT(name) ,sex from p_user GROUP BY sex

另外,GROUP_CONCT也可用来进列转行操作:

select GROUP_CONCAT(DISTINCT brand_name) FROM goods_sale
where leaguer_code='13007509648'

28fe972fc448b820ff08fba91fc1a6da.png


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
0
0
0
34
分享
相关文章
【YashanDB知识库】如何将mysql含有group by的SQL转换成崖山支持的SQL
本文探讨了在YashanDB(崖山数据库)中执行某些SQL语句时出现的报错问题,对比了MySQL的成功执行结果。问题源于SQL-92标准对非聚合列的严格限制,要求这些列必须出现在GROUP BY子句中,而SQL:1999及更高版本允许非聚合列直接出现在选择列中。YashanDB和Oracle遵循SQL-92标准,因此会报错。文章提供了两种解决方法:使用聚合函数处理非聚合列,或将GROUP BY与ORDER BY拆分为两层查询。最后总结指出,SQL-92标准更为严谨合理,建议开发者遵循此规范以避免潜在问题。
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
【YashanDB 知识库】如何将 mysql 含有 group by 的 SQL 转换成崖山支持的 SQL
在崖山数据库中执行某些 SQL 语句时出现报错(YAS-04316 not a single-group group function),而这些语句在 MySQL 中能成功执行。原因是崖山遵循 SQL-92 标准,不允许选择列表中包含未在 GROUP BY 子句中指定的非聚合列,而 MySQL 默认允许这种操作。解决办法包括:使用聚合函数处理非聚合列或拆分查询为两层,先进行 GROUP BY 再排序。总结来说,SQL-92 更严格,确保数据一致性,MySQL 在 5.7 及以上版本也默认遵循此标准。
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
134 7
MySQL事务日志-Undo Log工作原理分析
mysql慢查询每日汇报与分析
通过启用慢查询日志、提取和分析慢查询日志,可以有效识别和优化数据库中的性能瓶颈。结合适当的自动化工具和优化措施,可以显著提高MySQL数据库的性能和稳定性。希望本文的详解和示例能够为数据库管理人员提供有价值的参考,帮助实现高效的数据库管理。
66 11
MySQL原理简介—4.深入分析Buffer Pool
本文介绍了MySQL的Buffer Pool机制,包括其作用、配置方法及内部结构。Buffer Pool是MySQL用于缓存磁盘数据页的关键组件,能显著提升数据库读写性能。默认大小为128MB,可根据服务器配置调整(如32GB内存可设为2GB)。它通过free链表管理空闲缓存页,flush链表记录脏页,并用LRU链表区分冷热数据以优化淘汰策略。此外,还探讨了多Buffer Pool实例、chunk动态调整等优化并发性能的方法,以及如何通过`show engine innodb status`查看Buffer Pool状态。关键词:MySQL内存数据更新机制。
MySQL 窗口函数详解:分析性查询的强大工具
MySQL 窗口函数从 8.0 版本开始支持,提供了一种灵活的方式处理 SQL 查询中的数据。无需分组即可对行集进行分析,常用于计算排名、累计和、移动平均值等。基本语法包括 `function_name([arguments]) OVER ([PARTITION BY columns] [ORDER BY columns] [frame_clause])`,常见函数有 `ROW_NUMBER()`, `RANK()`, `DENSE_RANK()`, `SUM()`, `AVG()` 等。窗口框架定义了计算聚合值时应包含的行。适用于复杂数据操作和分析报告。
214 11
基于案例分析 MySQL 权限认证中的具体优先原则
【10月更文挑战第26天】本文通过具体案例分析了MySQL权限认证中的优先原则,包括全局权限、数据库级别权限和表级别权限的设置与优先级。全局权限优先于数据库级别权限,后者又优先于表级别权限。在权限冲突时,更严格的权限将被优先执行,确保数据库的安全性与资源合理分配。
100 4
MySQL的group by与count(), *字段使用问题
正确使用 `GROUP BY`和 `COUNT()`函数是进行数据聚合查询的基础。通过理解它们的用法和常见问题,可以有效避免查询错误和性能问题。无论是在单列分组、多列分组还是结合其他聚合函数的场景中,掌握这些技巧和注意事项都能大大提升数据查询和分析的效率。
479 0
【赵渝强老师】启动与关闭MySQL数据库实例
MySQL数据库安装完成后,可以通过命令脚本启动、查看状态、配置开机自启、查看自启列表及关闭数据库。本文提供了详细的操作步骤和示例代码,并附有视频讲解。