MySQL关联查询Join的原理和优化

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: MySQL关联查询Join的原理和优化

前言


在平时的开发过程中,大家应该经常会用到join进行多个表的之间的关联查询,但是如果使用不合理的话,会导致查询性能下降。本文就MySQL中的关联查询的实现原理以及一些优化建议等内容做一个讲解。


关联查询介绍


关联查询,指两个或更多个表一起完成查询操作。

  1. 内连接(INNTER JOIN)

合并具有同一列的两个以上的表的行, 结果集中不包含一个表与另一个表不匹配的行,语法如下:

SELECT 字段列表
FROM A表 INNER JOIN B表
ON 关联条件
WHERE 等其他子句;

1671199356968.jpg

  • 返回的结果集是A表和B匹配的行。
  • A表或者B表哪个表是驱动表(主表)或者被驱动表(从表)由查询优化器决定。
  1. 左连接(LEFT JOIN)

两个表在连接过程中除了返回满足连接条件的行以外,还返回左表中不满足条件的行。

#实现查询结果是A
SELECT 字段列表
FROM A表 LEFT JOIN B表
ON 关联条件
WHERE 等其他子句;

1671199368671.jpg

  • 结果集中返回匹配的行,也返回A表中不匹配的行,不匹配字段用NULL表示。
  • A表是驱动表(主表),B表是非驱动表(从表)。
  1. 右连接(Right JOIN)

两个表在连接过程中除了返回满足连接条件的行以外,还返回右表中不满足条件的行。

#实现查询结果是B
SELECT 字段列表
FROM A表 RIGHT JOIN B表
ON 关联条件
WHERE 等其他子句;

1671199382751.jpg

  • 结果集中返回匹配的行,也返回B表中不匹配的行,不匹配字段用NULL表示。
  • B表是驱动表(主表),A表是非驱动表(从表)。


关联查询原理


前面讲解了连接查询的几种方式,现在谈谈MySQL底层是支持这几种连接查询的。

关联查询中涉及到多张表的的查询,根据驱动类型分为驱动表和被驱动表,驱动表就是主表,被驱动表就是从表。我们可以在执行计划中看出来。


1671199391811.jpg


  • 执行计划从上向下看,上面的属于驱动表。
  • 内连接的驱动表选择由查询优化器决定。
  • 左连接的驱动表一般是左边的表,右连接的驱动表一般是右边的表。

了解了驱动表和被驱动表以后,现在我们看下MySQL究竟是怎么做join查询的。


简单嵌套循环连接


简单嵌套循环连接(Simple Nested-Loop join)是从驱动表A中取出一条数据,遍历表B,将匹配到的数据放到result.. 以此类推, 如下图所示:


1671199405533.jpg


  • 算法简单粗暴,比如驱动表A有10条,被驱动表B有100条,那么扫描次数是A+A*B, 每一次扫描其实就是从硬盘中读取数据加载到内存中,也就是一次IO,而IO是最大的瓶颈,所以效率低下,开销如下表:
开销统计 简单嵌套循环连接
驱动表扫描次数 1
被驱动表扫描次数 A
读取记录数 A+B*A
JOIN比较次数 B*A
回表读取记录次数 0
  • 当然MySQL默认没有采用这种算法。


块嵌套循环连接


块嵌套循环连接(Block Nested-Loop Join)是对上面一种算法的优化,竟然逐条的去驱动表中获取数据去匹配,和磁盘IO交互太多了,那么能否批量的方式呢?而这种算法就是借鉴了这样的思想。

不再是逐条获取驱动表的数据,而是一块一块的获取,引入了join buffer缓冲区,将驱动表join相关的部分数据列、缓存到join buffer中,然后全表扫描被驱动表,被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低了被驱动表的访问频率。整体如下图所示:


1671199416331.jpg


  • 注意一点,从驱动表中缓存的列不仅仅是关联的的列,select后面的列也会缓存起来。因此,为了能让join buffer缓存更多的数据,我们的SQL尽量不要select *, 而是select 用到的字段。
  • 整体的开销如下表所示:
开销统计 简单嵌套循环连接 块嵌套循环连接
驱动表扫描次数 1 1
被驱动表扫描次数 A A*used_column_size/join_buffer_size+1
读取记录数 A+B*A A+B*(A*used_column_size/join_buffer_size)
JOIN比较次数 B*A B*A
回表读取记录次数 0 0
  • join buffer的大小是可以设置的,默认情况下join_buffer_size=256k
show variables like '%join_buffer%';


索引嵌套循环连接


那还有没有效率更加高的关联查询算法呢?索引嵌套循环连接(Index Nested-Loop Join)就是效率最高的,前提条件是被驱动表的关联字段建立了索引。通过驱动表匹配条件直接与被驱动表的索引进行匹配,避免和内存表的每条记录去进行比较,这样极大的减少了对内存表的匹配次数。如下图所示:


1671199435601.jpg


  • 整体的开销成本如下表所示:
开销统计 简单嵌套循环连接 块嵌套循环连接 索引嵌套循环连接
驱动表扫描次数 1 1 1
被驱动表扫描次数 A A*used_column_size/join_buffer_size+1 0
读取记录数 A+B*A A+B*(A*used_column_size/join_buffer_size) A+B(match)
JOIN比较次数 B*A B*A A*Index(Height)
回表读取记录次数 0 0 B(match)(if possible)

因为索引查询的成本基本一样,为了降低开销,驱动表是小表更加合适。


Hash Join(MySQL 8)


从MySQL8后面的版本开始废弃块嵌套循环连接,默认使用了Hash Join的方式。

  • 块嵌套循环连接:对于被连接的数据子集较小的情况下,它是个较好的选择。
  • Hash Join: 是做大数据集连接时的常用方式,优化器使用两个表中较小(相对较小)的表利用Join Key在内存中建立散列值,然后扫描较大的表并探测散列值,找出与Hash表匹配的行。它能够很好的工作于没有索引的大表和并行查询的环境中,并提供最好的性能。Hash Join只能应用于等值连接,这是由Hash的特点决定的。

1671199447155.jpg


优化建议


前面讲解了关联查询Join的实现原理,那么对于关联查询模式我们可以从中总结出下面的一些优化点:

  1. 优先保证被驱动表的连接字段建立索引,因为建立索引的查询方式是效率最高的。
  2. left join或者 right join这种外连接的情况,要保证小表(小结果集)作为驱动表,大表(大结果集)作为被驱动表,这样性能更好。
  3. 在查询字段的话,要避免select *或者select 全部字段,而是按需,因为这些字段也会加入到join buffer中。
  4. 能够直接多表关联的尽量直接关联,不用子查询,因为子查询的效率更加低。
  5. 在sql的查询计划的extra中,尽量避免出现Using join buffer,有这个表示使用了块嵌套循环连接算法,尽量通过索引去解决。
  6. 尽量避免超过3张表以上的关联查询。


总结


本文分享了日常工作中使用非常频繁的关联查询,主要关注关联查询的实现原理,这样我们可以在平时写关联查询的SQL时候性能才会更佳。如果本文对你有帮助,请留下一个赞吧。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
6天前
|
缓存 关系型数据库 MySQL
MySQL索引策略与查询性能调优实战
在实际应用中,需要根据具体的业务需求和查询模式,综合运用索引策略和查询性能调优方法,不断地测试和优化,以提高MySQL数据库的查询性能。
|
11天前
|
SQL 关系型数据库 MySQL
MySQL慢查询优化、索引优化、以及表等优化详解
本文详细介绍了MySQL优化方案,包括索引优化、SQL慢查询优化和数据库表优化,帮助提升数据库性能。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
MySQL慢查询优化、索引优化、以及表等优化详解
|
14天前
|
SQL 前端开发 关系型数据库
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
46 9
|
16天前
|
缓存 监控 关系型数据库
如何优化MySQL查询速度?
如何优化MySQL查询速度?【10月更文挑战第31天】
44 3
|
18天前
|
缓存 关系型数据库 MySQL
如何优化 MySQL 数据库的性能?
【10月更文挑战第28天】
42 1
|
20天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
92 1
|
20天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第26天】数据库作为现代应用系统的核心组件,其性能优化至关重要。本文主要探讨MySQL的索引策略与查询性能调优。通过合理创建索引(如B-Tree、复合索引)和优化查询语句(如使用EXPLAIN、优化分页查询),可以显著提升数据库的响应速度和稳定性。实践中还需定期审查慢查询日志,持续优化性能。
49 0
|
11天前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
26 1
|
13天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
29 4
|
1月前
|
存储 关系型数据库 MySQL
Mysql(4)—数据库索引
数据库索引是用于提高数据检索效率的数据结构,类似于书籍中的索引。它允许用户快速找到数据,而无需扫描整个表。MySQL中的索引可以显著提升查询速度,使数据库操作更加高效。索引的发展经历了从无索引、简单索引到B-树、哈希索引、位图索引、全文索引等多个阶段。
63 3
Mysql(4)—数据库索引
下一篇
无影云桌面