测一测自己的Sql能力之MYSQL的GROUPBY你弄懂了吗?

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 采用一个SQL语句,查询出:每一位客户最后一次的下单时间、订单金额、商品名称;以及每一位客户的累计订单总笔数、最大订单金额

场景描述如下:

订单表

(包含字段有:订单ID[自增]、客户ID、下单时间、订单金额、商品名称)

采用一个SQL语句,查询出:

每一位客户最后一次的下单时间、订单金额、商品名称;以及每一位客户的累计订单总笔数、最大订单金额


看起来很简单哈,有的同学就会这样去写了,如下:

SELECT
  MAX( good_price ) AS max_good_price,
  COUNT( DISTINCT order_id, order_id ) AS sum_order_num,
  order_person_id,
  MAX( create_time ) AS create_time,
  good_price,
  order_name AS good_name 
FROM
  `t_order_info` 
GROUP BY
  order_person_id

在数据很少的时候,通过这种就很容易实现了,并且每一个用户当时只有一条对应的信息,也就是order_person_id所对应的商品信息只有互不相同的一条信息。

很显然这样是不合理的,当出现多条数据的时候就会产生对应的一个错误,那就是会取到其他的数据,显示的order_person_id为3,但却不是3的其他数据字段。所以当我们去查询的时候 发现数值不对。

SELECT * FROM  `t_order_info` WHERE order_person_id = 5 ORDER BY create_time DESC;

然后继续查看是那种原因呢?


首先我们一定要明白,GROUPBY是每次只取表格的第一条数据,比如按照order_person_id进行分类,这样就会每次遇到相同的order_person_id时候,就会取第一个职,这样就出现了上面所展示的结果。


所以首先我们可以先查出来每个下单人所对应的最新下单时间以及下单人order_person_id编号,这样我们在拿着这组编号再去联查原始表INNER JOIN,将我们的时间最大值和其他相关字段查出来,同时要按照下单人ID进行分组,这样查出来的数据存在重复的订单数据,所以我们再嵌套一层GROUPBY order_person_id,这样就会按照含有重复数据集合中的默认id顺序进行分组并从该顺序中逐一取order_person_id的第一个值,然后生成新得集合。


对比两次GROUPBY查询:

SELECT
    toi.* 
  FROM
    ( SELECT order_person_id, max( create_time ) time FROM t_order_info GROUP BY order_person_id ) tmp
    INNER JOIN t_order_info toi ON tmp.order_person_id = toi.order_person_id 
    AND tmp.time = toi.create_time 
ORDER BY order_person_id DESC
根据order_person_id进行排序查询,结果如下:
1723  小卡车 3 3
1724  小卡车 4 4
1572  小卡车-AB  5 5
1708  小卡车 6 6
1717  小卡车 6 6
1709  小卡车 7 7
1718  小卡车 7 7
1710  小卡车 8 8
1719  小卡车 8 8
1702  小卡车 9 9
1711  小卡车 9 9
1720  小卡车 9 9
1703  小卡车 10  10
1712  小卡车 10  10
1721  小卡车 10  10
1722  小卡车 11  11
SELECT
    toi.* 
  FROM
    ( SELECT order_person_id, max( create_time ) time FROM t_order_info GROUP BY order_person_id ) tmp
    INNER JOIN t_order_info toi ON tmp.order_person_id = toi.order_person_id 
    AND tmp.time = toi.create_time 
默认GROUPBY 分组ID排序
1572  小卡车-AB  5 5 7
1702  小卡车 9 9 7
1703  小卡车 10  10  7
1708  小卡车 6 6 7
1709  小卡车 7 7 7
1710  小卡车 8 8 7
1711  小卡车 9 9 7
1712  小卡车 10  10  7
1717  小卡车 6 6 7
1718  小卡车 7 7 7
1719  小卡车 8 8 7
1720  小卡车 9 9 7
1721  小卡车 10  10  7
1722  小卡车 11  11  7
1723  小卡车 3 3 7
1724  小卡车 4 4 7

正式的SQL例子,采用INNERJOIN:

SELECT *
FROM (
  SELECT toi.*
  FROM (
    SELECT 
    order_person_id,
    max(create_time) TIME
    FROM t_order_info
    GROUP BY order_person_id
    ) tmp
  INNER JOIN t_order_info toi ON tmp.order_person_id = toi.order_person_id
    AND tmp.TIME = toi.create_time
  ) AS a
GROUP BY order_person_id;
--  GROUP BY 默认取第一个

第二步进行聚合函数的操作:

SELECT
  MAX( good_price ) AS max_good_price,
  COUNT( order_id ) AS sum_order_num,
  MAX( create_time ) AS max_create_time,
  order_person_id
FROM
  `t_order_info` 
GROUP BY
  order_person_id;

最终版本:

最终版:
SELECT
  MAX( toi1.good_price ) AS max_good_price,
  COUNT( toi1.order_id ) AS sum_order_num,
  toi1.order_person_id,
  max_create_time, 
  b.good_price,
  b.order_name,
  b.order_person_id
FROM
  `t_order_info`AS toi1 INNER JOIN (
  SELECT
max(create_time) AS max_create_time, good_price,order_name,order_person_id
FROM
  (
  SELECT
    toi.* 
  FROM
    ( SELECT order_person_id, max( create_time ) time FROM t_order_info GROUP BY order_person_id ) tmp
    INNER JOIN t_order_info toi ON tmp.order_person_id = toi.order_person_id 
    AND tmp.time = toi.create_time 
  ) AS a 
GROUP BY  
  order_person_id
  ) AS b ON toi1.order_person_id = b.order_person_id
  GROUP BY
  b.order_person_id

还可以根据最新的时间进行分组,不采用INNERJOIN的形式。

SELECT * FROM (
SELECT
    order_id,
    order_person_id,
    good_price,
    order_name AS good_name,
    create_time 
  FROM
    `t_order_info` 
  WHERE create_time = (
    SELECT
    MAX( create_time )) 
  GROUP BY
    order_person_id,
    (SELECT MAX( create_time )) 
  ORDER BY
    create_time DESC    
) AS a GROUP BY
    order_person_id

最终版本:

最终版:
SELECT
  MAX( toi.good_price ) AS max_good_price,
  COUNT( toi.order_id ) AS sum_order_num,
  MAX( toi.create_time ) AS max_create_time,
  toii.good_price,
  toii.good_name,
  toii.order_person_id 
FROM
  `t_order_info` AS toi
  INNER JOIN (
  SELECT
    * 
  FROM
    ( SELECT order_person_id, good_price, order_name AS good_name, create_time FROM `t_order_info` GROUP BY order_person_id, ( SELECT MAX( create_time )) ORDER BY create_time DESC ) AS a 
  GROUP BY
    order_person_id 
  ) AS toii ON toi.order_person_id = toii.order_person_id 
GROUP BY
  toii.order_person_id

以下是其他排查语句,也先列在这里。

SELECT max(create_time), order_person_id FROM t_order_info GROUP BY order_person_id;
SELECT max(create_time), good_price,order_name,order_person_id FROM t_order_info GROUP BY order_person_id;

同时这里面里一个终极版本的写法:

select 
  temp.order_person_id  客户ID,
  max(temp.create_time) 最后一次的下单时间,
  temp.good_price  最后一次的下单金额,
  temp.order_name  最后一次的下单商品,
  count(*)  客户的累计订单总笔数,
  max(good_price)  最大订单金额
from (select * from t_order_info order by create_time desc, order_id desc limit 9999999999) as temp
group by temp.order_person_id;

这是我的直属领导给我写的语句,多么的简短,美丽大方,留做纪念。


欢迎感兴趣的小伙伴一起探讨学习知识,以上是个人的一些总结分享,如有错误的地方望各位留言指出,十分感谢。

觉得有用的话别忘点赞、收藏、关注,手留余香! 😗 😗 😗

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
9天前
|
SQL 存储 关系型数据库
【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程
本文详细介绍了MySQL中的SQL语法,包括数据定义(DDL)、数据操作(DML)、数据查询(DQL)和数据控制(DCL)四个主要部分。内容涵盖了创建、修改和删除数据库、表以及表字段的操作,以及通过图形化工具DataGrip进行数据库管理和查询。此外,还讲解了数据的增、删、改、查操作,以及查询语句的条件、聚合函数、分组、排序和分页等知识点。
【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程
|
27天前
|
SQL 存储 缓存
MySQL进阶突击系列(02)一条更新SQL执行过程 | 讲透undoLog、redoLog、binLog日志三宝
本文详细介绍了MySQL中update SQL执行过程涉及的undoLog、redoLog和binLog三种日志的作用及其工作原理,包括它们如何确保数据的一致性和完整性,以及在事务提交过程中各自的角色。同时,文章还探讨了这些日志在故障恢复中的重要性,强调了合理配置相关参数对于提高系统稳定性的必要性。
|
26天前
|
SQL 关系型数据库 MySQL
MySQL 高级(进阶) SQL 语句
MySQL 提供了丰富的高级 SQL 语句功能,能够处理复杂的数据查询和管理需求。通过掌握窗口函数、子查询、联合查询、复杂连接操作和事务处理等高级技术,能够大幅提升数据库操作的效率和灵活性。在实际应用中,合理使用这些高级功能,可以更高效地管理和查询数据,满足多样化的业务需求。
97 3
|
29天前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
30天前
|
SQL 存储 关系型数据库
MySQL进阶突击系列(01)一条简单SQL搞懂MySQL架构原理 | 含实用命令参数集
本文从MySQL的架构原理出发,详细介绍其SQL查询的全过程,涵盖客户端发起SQL查询、服务端SQL接口、解析器、优化器、存储引擎及日志数据等内容。同时提供了MySQL常用的管理命令参数集,帮助读者深入了解MySQL的技术细节和优化方法。
|
4月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
6月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
139 13
|
6月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
|
6月前
|
SQL 存储 网络安全
关系数据库SQLserver 安装 SQL Server
【7月更文挑战第26天】
76 6
|
6月前
|
存储 SQL C++
对比 SQL Server中的VARCHAR(max) 与VARCHAR(n) 数据类型
【7月更文挑战7天】SQL Server 中的 VARCHAR(max) vs VARCHAR(n): - VARCHAR(n) 存储最多 n 个字符(1-8000),适合短文本。 - VARCHAR(max) 可存储约 21 亿个字符,适合大量文本。 - VARCHAR(n) 在处理小数据时性能更好,空间固定。 - VARCHAR(max) 对于大文本更合适,但可能影响性能。 - 选择取决于数据长度预期和业务需求。
480 1