【MySQL从入门到精通】【高级篇】(三十)记一次mysql5.7的新特性derived_merge的坑

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 现有课堂活动评价的需求:教师对学生提交的活动进行评价, 教师可重复评价,即对同一个学生同一个活动进行多次评价,这种情况下需要取最新的那个评价。

1. 项目场景

现有课堂活动评价的需求:教师对学生提交的活动进行评价, 教师可重复评价,即对同一个学生同一个活动进行多次评价,这种情况下需要取最新的那个评价。

2. 问题描述

本来期望直接使用 rank() over() 开窗函数,就像下面这样,但是奈何开窗函数只在mysql 8.0 及其以上的版本支持。

rank() over(
        partition by activity_id,
         comment_open_id
        order by
          report_date desc
      ) RK

而项目组使用的是MySQL的版本是 5.7,此版本不支持开窗函数,故放弃此方案。

经过一番调研之后,决定采用子查询,在子查询中先按照时间report_date倒序排列,然后在外层查询中按照 activity_id+comment_open_id 分组,因为分组的话会取该分组中的第一条数据。

理想是丰满的,显示是骨感的!!!!

如下:原始数据有4条数据,其中第一条数据(id=11)和第四条数据(id=19)的活动ID(activity_id)和用户id(comment_open_id)都相同。按照我们期望的这两条数据只取id=19的那条数据,因为那条数据更新。而第二条数据和第三条数据正常保留。故期望的分组结果是 13,17,19 这三条数据。

第一步:子查询先按照时间排序,按照时间分组之后发现id=19的数据排在了id=11的数据前面

SELECT
  id,
  activity_id,
  activity_name,
  report_date,
  comment_open_id,
  logic_score
FROM
  t_student_five_activity_daily 
WHERE
  comment_open_id = 'fbc284072a40da842efb24deacfa39d5d1baaccdbbe7b95e640d38eafa658b25149d78a0208f9a632c73eeeb30d1830e5f1a41f5964a8417' 
ORDER BY
  report_date DESC;


f00608f083d817929b8747566a6f6ddf_4ff99466a69f4d9284cc7551fe68f29a.pngf00608f083d817929b8747566a6f6ddf_4ff99466a69f4d9284cc7551fe68f29a.png


第二步:在外层查询中按照activity_id和comment_open_id 进行分组

SELECT a.* FROM
(
SELECT
  id,
  activity_id,
  activity_name,
  report_date,
  comment_open_id,
  logic_score
FROM
  t_student_five_activity_daily 
WHERE
  comment_open_id = 'fbc284072a40da842efb24deacfa39d5d1baaccdbbe7b95e640d38eafa658b25149d78a0208f9a632c73eeeb30d1830e5f1a41f5964a8417' 
ORDER BY
  report_date DESC
) as a
GROUP BY 
  a.activity_id,
  a.comment_open_id

 

但是分组之后,我们发现最终取的结果是13,17,11 这三条数据,与我们期望的 13,17,19 有出入。

直觉告诉我们应该是子查询里面的排序没有生效,不然的话应该取的就是id=19那条数据

3. 原因分析

遇到数据库的SQL问题不要慌,首先查询一下执行计划。

执行计划显示只有一个表的处理,不对呀,应该是两张表,先子查询查出一张临时表,然后外层查询再从这张临时表筛选出一张新表,总共两张表才对。而是采用了临时表,磁盘排序的方式。这就说明查询优化器对我们的SQL进行了查询优化。

一番百度之后,发现其实是mysql5.7针对于5.6版本做了一个优化,针对mysql本身的优化器增加了一个控制优化器的参数叫 derived_merge ,什么意思呢,“派生类合并”。

什么意思呢,据mysql官方使用手册的说法:



这里将派生表合并到外部查询块中,就相当于嵌套子查询没啥鸟用了。

通过对mysql官方使用手册的了解,mysql5.7对 derived_merge 参数默认设置为on,也就是开启状态,当然我们也可以通过命令查看一下(在命令行窗口中执行该命令):

show variables like '%optimizer_switch%';

4. 问题解决

问题的原因找到了,那么解决问题就简单了,这里有两种方式来解决这个问题

4.1. 方式一:关闭derived_merge特性

我们在mysql5.7中把它关闭 shut downn 使用如下命令:

set  optimizer_switch='derived_merge=off';
set global optimizer_switch='derived_merge=off';

这样如果from中查询出来的的结果就不会与外部查询块合并了,sql执行结果如下:

SQL的执行计划如下:在执行计划中发现了两个查询id=2的就是子查询。

当然修改 derived_merge 参数得谨慎而行之,因为mysql5.7版本有了这个优化的机制是有它的道理的,之所以去除派生类与外部块合并,是因为减少查询开销,派生类是个临时表,开辟一个临时表的同时还要维护和排序或者分组,都会影响效率,所以尽量不要去修改此参数。

其实也有多种办法不需要修改 derived_merge 参数而使合并派生类失效,具体做法可参考官方使用手册, 摘抄手册文:

4.2. 方式二:采用DISTINCT函数使得 derived_merge 参数合并派生类失效

在子查询中使用DISTINCT函数,使得子查询不会被合并到外部查询块中。

SELECT a.* FROM
(
SELECT
  DISTINCT
  id,
  activity_id,
  activity_name,
  report_date,
  comment_open_id,
  logic_score
FROM
  t_student_five_activity_daily 
WHERE
  comment_open_id = 'fbc284072a40da842efb24deacfa39d5d1baaccdbbe7b95e640d38eafa658b25149d78a0208f9a632c73eeeb30d1830e5f1a41f5964a8417' 
ORDER BY
  report_date DESC
) as a
GROUP BY 
  a.activity_id,
  a.comment_open_id;

查询结果如下所示:

执行计划如下所示:

当然处理DISTINCT函数以外,还有其他的函数也是可以的


可以通过在子查询中使用任何阻止合并的构造来禁用合并,尽管这些构造对实现的影响并不明确。 防止合并的构造对于派生表和视图引用是相同的:

1.聚合函数( SUM() , MIN() , MAX() , COUNT()等)

2.DISTINCT

3.GROUP BY

4.HAVING

5.LIMIT

6.UNION或UNION ALL

7.选择列表中的子查询

8.分配给用户变量

9.仅引用文字值(在这种情况下,没有基础表)

最后说一句

如果你使用的是MySQL 8.0及以上的版本,那么你可以直接使用开窗函数 rank() over()。参考SQL如下:

SELECT a.* FROM
(
SELECT
  id,
  activity_id,
  activity_name,
  report_date,
  comment_open_id,
  logic_score,
  RANK() over(
  partition by activity_id,
         comment_open_id
        order by
          report_date desc
  ) RK
FROM
  t_student_five_activity_daily 
WHERE
  comment_open_id = 'fbc284072a40da842efb24deacfa39d5d1baaccdbbe7b95e640d38eafa658b25149d78a0208f9a632c73eeeb30d1830e5f1a41f5964a8417' 
) as a
WHERE a.RK=1

参考

记一次mysql5.7的新特性derived_merge的坑


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
4月前
|
安全 关系型数据库 MySQL
PHP与MySQL交互:从入门到实践
【9月更文挑战第20天】在数字时代的浪潮中,掌握PHP与MySQL的互动成为了开发动态网站和应用程序的关键。本文将通过简明的语言和实例,引导你理解PHP如何与MySQL数据库进行对话,开启你的编程之旅。我们将从连接数据库开始,逐步深入到执行查询、处理结果,以及应对常见的挑战。无论你是初学者还是希望提升技能的开发者,这篇文章都将为你提供实用的知识和技巧。让我们一起探索PHP与MySQL交互的世界,解锁数据的力量!
|
10天前
|
SQL 安全 关系型数据库
【MySQL基础篇】事务(事务操作、事务四大特性、并发事务问题、事务隔离级别)
事务是MySQL中一组不可分割的操作集合,确保所有操作要么全部成功,要么全部失败。本文利用SQL演示并总结了事务操作、事务四大特性、并发事务问题、事务隔离级别。
【MySQL基础篇】事务(事务操作、事务四大特性、并发事务问题、事务隔离级别)
|
4月前
|
关系型数据库 MySQL 数据库
MySQL基本操作入门指南
MySQL基本操作入门指南
133 0
|
2月前
|
关系型数据库 MySQL
mysql事务特性
原子性:一个事务内的操作统一成功或失败 一致性:事务前后的数据总量不变 隔离性:事务与事务之间相互不影响 持久性:事务一旦提交发生的改变不可逆
|
2月前
|
存储 关系型数据库 MySQL
MySQL 8.0特性-自增变量的持久化
【11月更文挑战第8天】在 MySQL 8.0 之前,自增变量(`AUTO_INCREMENT`)的行为在服务器重启后可能会发生变化,导致意外结果。MySQL 8.0 引入了自增变量的持久化特性,将其信息存储在数据字典中,确保重启后的一致性。这提高了开发和管理的稳定性,减少了主键冲突和数据不一致的风险。默认情况下,MySQL 8.0 启用了这一特性,但在升级时需注意行为变化。
|
4月前
|
JSON 关系型数据库 MySQL
MySQL 8.0 新特性
MySQL 8.0 新特性
176 10
MySQL 8.0 新特性
|
4月前
|
存储 Oracle 关系型数据库
Oracle和MySQL有哪些区别?从基本特性、技术选型、字段类型、事务、语句等角度详细对比Oracle和MySQL
从基本特性、技术选型、字段类型、事务提交方式、SQL语句、分页方法等方面对比Oracle和MySQL的区别。
771 18
|
3月前
|
SQL 安全 关系型数据库
MySQL8.2有哪些新特性?
【10月更文挑战第3天】MySQL8.2有哪些新特性?
66 2
|
4月前
|
SQL 关系型数据库 MySQL
MySQL入门到精通
MySQL入门到精通
|
5月前
|
算法 关系型数据库 MySQL
一天五道Java面试题----第七天(mysql索引结构,各自的优劣--------->事务的基本特性和隔离级别)
这篇文章是关于MySQL的面试题总结,包括索引结构的优劣、索引设计原则、MySQL锁的类型、执行计划的解读以及事务的基本特性和隔离级别。