子查询注意事项&semi-join(2)—mysql基于规则优化(四十五)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 子查询注意事项&semi-join(2)—mysql基于规则优化(四十五)

前面说了mysql会吧一些冗余的sql语句查询优化重写,比如多于的括号,比如有的外连接其实跟内连接类似,可以优化查询表的顺序。子查询又分为相关和不相关子查询,如果子查询过滤条件里有外层查询的参数,则是相关子查询,反之则是不相关子查询。Any函数就代表只要有一个就行,最小的,all代表必须所有的都满足这个条件,所以必须最大的也满足。当我们判断子查询里是否存在的时候,则用exists判断,有则返回true。

条件简化&子查询(1)--Mysql基于规则优化(四十四)


子查询注意事项


1、子查询必须用括号,否则报错:

mysql> SELECT SELECT m1 FROM t1;
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'SELECT m1 FROM t1' at line 1


2、在select语句中,子查询必须是标量,如果有多行或者多列报错:

mysql> SELECT (SELECT m1, n1 FROM t1);
ERROR 1241 (21000): Operand should contain 1 column(s)

3、对于in/not in/ANT/all/some这些子语句不允许用limit:

mysql> SELECT * FROM t1 WHERE m1 IN (SELECT * FROM t2 LIMIT 2);
ERROR 1235 (42000): This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'

所以因为没有聚集函数和having,所以group by就是多余的

SELECT * FROM t1 WHERE m1 IN (SELECT m2 FROM t2 GROUP BY m2);

Distinct也是多余的,集合里去重没啥意义

SELECT * FROM t1 WHERE m1 IN (SELECT DISTINCT m2 FROM t2);

同理orderby也是多余的。


子查询在mysql怎么执行的呢?


我们继续用前面创建的表single_table来演示,假设有两个一样的表s1和s2,以前我是这么认为的:

SELECT * FROM s1
    WHERE key1 IN (SELECT common_field FROM s2);

不相关子查询应该是先查询子sql,获取到标量之后,在执行外层sql。

SELECT * FROM s1
    WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key2 = s2.key2);

相关子查询则是先执行外层sql,获取到s2.key2对应的标量,在执行子查询,子查询获取到值后,在用集合查询外层查询,如此循环。


标量子查询和行子查询


  1. select子句时,必须使用标量子查询。
  2. 子查询使用=,>,<,<>等操作符和某个操作数组成布尔表达式,这样子查询必须是标量子查询或者行子查询。

对于上面两种查询来说,执行的很简单,跟我们前面想的一样,

SELECT * FROM s1 WHERE
    key1 = (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3 LIMIT 1);

这种相关子查询也和我们前面想的一样:

  1. 外层获取一条记录,用于s2.key3的值。
  2. 查询子查询集合。
  3. 再根据集合的where语句看外层子查询是否符合。
  4. 重复第一步查询。


In子查询优化


对于不相关的in子查询:

SELECT * FROM s1
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

这时候如果in里面的参数太多,会导致无法有效使用索引,只能对外层全表扫描,于是mysql设计者想到了,直接这种in的子查询,吧子查询看做一个临时表,如果低于系统变量,tmp_table_size会创建memory的内存临时表,此时此刻则是hash索引。写入的临时表而且会通过唯一索引去重,如果超过了tmp_table_size则会创建物理磁盘的临时表,索引类型也会变为b+树索引。


Mysql吧这种in的子查询建立临时表过程叫做物化(Materialize),所以这种临时表又叫物化表,因为物化表里都有索引,基于内存的有hash索引,基于磁盘的有b+树索引,所以查询起来效率非常高。


物化表转连接


当mysql建立了物化表时候,其实查询的过程是什么呢,先扫描s1表,然后把所有s1查询出来的值带入物化表查询,或者显示先扫描物化表,吧所有物化表查询出来的值带入s1的key1列查询。这时候我们可以看到,其实就是两个表的内链接,如果是内连接,就要考虑表优先级顺序来选择最低成本的来执行sql了。

如果选s1作为驱动表,则成本是物化临时表需要的成本 + s1驱动表扫描成本 +  s1表中数据去物化表单表访问成本。(前面说过物化表是有索引,且不是重复,所以效率很高)

如果选物化表作为驱动表,则成本是物化临时表需要的成本 + 物化表扫描成本 + 物化表数据 去s1单表访问成本。(因为s1表的key1也是索引,所以这里效率也很高)


将子查询转换成semi-join


既然是物化之后转连接,mysql设计者于是想着能不能直接不物化,转连接呢

SELECT * FROM s1
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

我们可以看到上面的查询过程:先查询s1的值,然后把key1值带入到物化表,看看common_field是否存在,最后吧这些值放入结果集。

SELECT s1.* FROM s1 INNER JOIN s2
    ON s1.key1 = s2.common_field
    WHERE s2.key3 = 'a';

看起来是不是像这样,让他们两个值相同,然后用where过滤s2的值。

这时候,我们可以研究下,在s2执行完key3 = ‘a’之后满足s1.key1=s2.common_fiels 的数据有多少。

情况1:s2表过滤后,没有任何记录满足s1.key1=s2.common_fiels,则没有数据加入结果集。

情况2:s2表过滤后,有一条满足s1.key1=s2.common_fiels,则一条数据加入结果集。

情况3:s2表过滤后,有多条满足s1.key1=s2.common_fiels,则多条数据加入结果集。


其实对于我们需要的结果只需要s2表满足这个条件就好,我们只要查询出s1的值,并不需要管他有多少数据,但这时候并不满足情况三的条件,所以这时候mysql内部出现一个新的连接,叫semi-join。这个连接就能满足我们前面需要的数据,并不需要管子连接查询的数据,满足就直接查询s1就好。

SELECT s1.* FROM s1 SEMI JOIN s2
    ON s1.key1 = s2.common_field
    WHERE key3 = 'a';

那mysql怎么实现半连接的呢?


Table pullout(子查询中的表上拉)


当子查询的查询列表处只有主键和唯一索引的时候,直接上拉转换一下就好,

SELECT * FROM s1
    WHERE key2 IN (SELECT key2 FROM s2 WHERE key3 = 'a');

直接把条件和子查询的列上拉改为:

SELECT s1.* FROM s1 INNER JOIN s2
    ON s1.key2 = s2.key2
    WHERE s2.key3 = 'a';

为什么呢,因为这些数不可能存在查询出一个集合出来,已经是唯一的了。


DuplicateWeedout execution strategy(重复值消费)


SELECT * FROM s1
    WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');

上面的sql,因为查询列不是唯一值,所以肯定不能用上面上拉的方法,这时候就需要建立临时表,给临时表一个唯一id,当吧数据放入s1集合时,先加入临时表,如果不存在临时表,则添加进集合成功,如果临时表存在,则不添加进集合。


LooseScan execution strategy(松散扫描)


如下sql:

SELECT * FROM s1
    WHERE key3 IN (SELECT key1 FROM s2 WHERE key1 > 'a' AND key1 < 'b');

如果以s2为驱动表,如果key1查询来aa,aa,aa,ab,ab,ab,bb,bb,bb,只需要在s1表中s1.key3 = ‘aa’,只需要取相同值第一个值的记录放入结果集,这种取值方式就是松散扫描。


Semi-join Materialization execution strategy


我们前面吧子查询进行物化,然后通过外层表和物化表连接,本身就是semi-join,只不过物化表没有重复记录,所以可以将子查询转为连接查询。


FirstMatch execution strategy (首次匹配)


这种是最原始的半连接方式,和我们前面想法是一样的,关子查询则是先执行外层sql,获取到s2.key2对应的标量,在执行子查询,子查询获取到值后,在用集合查询外层查询,如此循环。


SELECT * FROM s1
    WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3);

比如这种in语句也可以转成

SELECT s1.* FROM s1 SEMI JOIN s2
    ON s1.key1 = s2.common_field AND s1.key3 = s2.key3;

然后可以用我们上面介绍的查询方法查询,但需要注意的是,由于相关子查询不是一个独立的查询,所以不能转为物化表来执行。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3天前
|
SQL 关系型数据库 MySQL
深入解析MySQL的EXPLAIN:指标详解与索引优化
MySQL 中的 `EXPLAIN` 语句用于分析和优化 SQL 查询,帮助你了解查询优化器的执行计划。本文详细介绍了 `EXPLAIN` 输出的各项指标,如 `id`、`select_type`、`table`、`type`、`key` 等,并提供了如何利用这些指标优化索引结构和 SQL 语句的具体方法。通过实战案例,展示了如何通过创建合适索引和调整查询语句来提升查询性能。
38 9
|
8天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
47 18
|
7天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
17 7
|
6天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化与慢查询优化:原理与实践
通过本文的介绍,希望您能够深入理解MySQL索引优化与慢查询优化的原理和实践方法,并在实际项目中灵活运用这些技术,提升数据库的整体性能。
26 5
|
25天前
|
关系型数据库 MySQL Java
MySQL索引优化与Java应用实践
【11月更文挑战第25天】在大数据量和高并发的业务场景下,MySQL数据库的索引优化是提升查询性能的关键。本文将深入探讨MySQL索引的多种类型、优化策略及其在Java应用中的实践,通过历史背景、业务场景、底层原理的介绍,并结合Java示例代码,帮助Java架构师更好地理解并应用这些技术。
25 2
|
11天前
|
关系型数据库 MySQL 数据库
Python处理数据库:MySQL与SQLite详解 | python小知识
本文详细介绍了如何使用Python操作MySQL和SQLite数据库,包括安装必要的库、连接数据库、执行增删改查等基本操作,适合初学者快速上手。
80 15
|
4天前
|
SQL 关系型数据库 MySQL
数据库数据恢复—Mysql数据库表记录丢失的数据恢复方案
Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分数据。 2、客户端无法查询到完整的信息。
|
11天前
|
关系型数据库 MySQL 数据库
数据库数据恢复—MYSQL数据库文件损坏的数据恢复案例
mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复数据库。
|
16天前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
24天前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
下一篇
DataWorks