如何让JOIN跑得更快(上)

简介: 如何让JOIN跑得更快

JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降。而且,参与 JOIN 的表越大越多,性能就越难提上来。


其实,让 JOIN 跑得快的关键是要对 JOIN 分类,分类之后,就能利用各种类型 JOIN 的特征来做性能优化了。


JOIN 分类

有 SQL 开发经验的同学都知道,绝大多数 JOIN 都是等值 JOIN,也就是关联条件为等式的 JOIN。非等值 JOIN 要少见得多,而且多数情况也可以转换成等值 JOIN 来处理,所以我们可以只讨论等值 JOIN。


等值 JOIN 主要又可以分为两大类:外键关联和主键关联。


外键关联是指用一个表的非主键字段,去关联另一个表的主键,前者称为事实表,后者为维表。比如下图中,订单表是事实表,客户表、产品表、雇员表是维表。


fa8ebdb38b943abfd89673431fe71b77.png


外键表是多对一关系,而且是不对称的,事实表和维表的位置不能互换。需要说明的是,这里说的主键是指逻辑上的主键,也就是在表中取值唯一、可以用于唯一确定某条记录的字段(或字段组),不一定在数据库表上建立过主键。


主键关联是指用一个表的主键关联另一个表的主键或部分主键。比如下图中客户和 VIP 客户、订单表和订单明细表的关联。

b8292713bbe3f6312f796c0612094b12.png



客户和 VIP 客户按照主键关联,这两个表互为同维表。订单则是用主键去关联明细的部分主键,我们称订单表是主表,明细表是子表。


同维表是一对一关系。且同维表之间是对称的,两个表的地位相同。主子表则是一对多关系,而且是不对称的,有明确的方向。


仔细观察会发现,这两类 JOIN 都涉及到主键了。而不涉及主键的 JOIN 会导致多对多关系,大多数情况都没有业务意义。换句话说,上述这两大类 JOIN 涵盖了几乎全部有业务意义的 JOIN。如果我们能利用 JOIN 总会涉及主键这个特征做性能优化,能解决掉这两大类 JOIN,其实也就意味着解决了大部分 JOIN 性能问题。


但是,SQL 对 JOIN 的定义并不涉及主键,只是两个表做笛卡尔积后再按某种条件过滤。这个定义很简单也很宽泛,几乎可以描述一切。但是,如果严格按这个定义去实现 JOIN,也就没办法在性能优化时利用主键的特征了。


SPL 改变了 JOIN 的定义,专门针对这两大类 JOIN 分别处理,利用了主键的特征减少运算量,从而实现性能优化的目标。


下面我们来看看 SPL 具体是怎么做的。


外键关联

如果事实表和维表都不太大,可以全部装入内存,SPL 提供了外键地址化方法:先把事实表中的外键字段值转换为对应维表记录的地址,之后引用维表字段时,就可以用地址直接取出了。


以前面的订单表、雇员表为例,假定这两个表已经被读入内存。外键地址化的工作机制是这样的:对于订单表某记录 r 的 eid 字段,到雇员表中找到这个 eid 字段值对应的记录,得到其内存地址 a,再将 r 的 eid 字段值替换成 a。对订单表的所有记录都做好这样的转换,就完成了外键地址化。这时候,订单表记录 r 要引用雇员表字段时,直接用 eid 字段存储的地址 a 取出雇员表记录和字段就可以了,相当于常数时间内就能取得雇员表的字段,不需要再到雇员表做查找。


可以在系统启动时把事实表和维表读入内存,并一次性做好外键地址化,即预关联。这样,在后续关联计算时就能直接用事实表外键字段中的地址去取维表记录,完成高性能的 JOIN 计算。


外键地址化和预关联的详细原理请参考:【性能优化】6.1 [外键关联] 外键地址化


SQL 通常使用 HASH 算法来做内存连接,需要计算 HASH 值和比对,性能会比直接用地址读取差很多。


目录
相关文章
|
7月前
|
JavaScript Java 大数据
分享Fork/Join经典案例
`shigen`是位专注于Java、Python、Vue和Shell的博主,分享技术成长和认知。上篇文章探讨了Java的Fork/Join框架,它类似线程池,通过拆分大任务并并行执行提升效率。以大序列求和为例展示了ForkJoinPool的使用,与普通线程池对比,Fork/Join效率提升约50%。适合递归任务、独立子任务和长执行时间的任务。注意任务粒度、避免共享状态和死锁。推荐观看相关视频深入理解。一起学习,每天进步!
50 0
分享Fork/Join经典案例
|
7月前
|
SQL 存储 算法
原理解析:如何让 Join 跑得更快?
原理解析:如何让 Join 跑得更快?
|
关系型数据库 MySQL
left join、right join和join,傻傻分不清?
真的是一张图道清所有join的区别啊,可惜我还是看不懂,可能人比较懒,然后基本一个left join给我就是够用的了,所以就没怎么去仔细研究了,但是现实还是逼我去搞清楚,索性自己动手,总算理解图中的含义了,下面就听我一一道来。
112 1
|
SQL 存储 缓存
如何让JOIN跑得更快(下)
如何让JOIN跑得更快
119 0
如何让JOIN跑得更快(下)
|
SQL Oracle 关系型数据库
【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
从执行计划角度分析IN、EXISTS 和 INNER JOIN效率而不是死记网上结论、表的5种关联:INNER JOIN、LEFT JOIN、RIGHT JOIN 和 FULL JOIN 解析【SQL开发实战技巧】这一系列博主当作复习旧知识来进行写作,毕竟SQL开发在数据分析场景非常重要且基础,面试也会经常问SQL开发和调优经验,相信当我写完这一系列文章,也能再有所收获,未来面对SQL面试也能游刃有余~。
【SQL开发实战技巧】系列(五):从执行计划看IN、EXISTS 和 INNER JOIN效率,我们要分场景不要死记网上结论
|
数据采集 Python
等一等,你的多线程可别再乱 join 了。
等一等,你的多线程可别再乱 join 了。
90 0
|
SQL 存储 缓存
如何让JOIN跑得更快
如何让JOIN跑得更快
135 0
如何让JOIN跑得更快
|
SQL 关系型数据库 MySQL
为啥count(*)会这么慢?
本没想着写这篇文章的,因为我觉得这个东西大多数有经验的开发遇到过,肯定也了解过相关的原因,但最近我看到有几个关注的技术公众号在推送相关的文章。实在令我吃惊!
150 0
|
Java
【多线程:join】join再理解
【多线程:join】join再理解
156 0
|
SQL 关系型数据库 MySQL
Join,left join,right join(1)--连接原理(三十九)
Join,left join,right join(1)--连接原理(三十九)