以小博大外小内大,Db数据库SQL优化之小数据驱动大数据-阿里云开发者社区

以小博大外小内大,Db数据库SQL优化之小数据驱动大数据

2023-02-18 309

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SQL优化中，有一条放之四海而皆准的既定方针，那就是：永远以小数据驱动大数据。其本质其实就是以小的数据样本作为驱动查询能够优化查询效率，在SQL中，涉及到不同表数据的连接、转移、或者合并，这些操作必须得有个数据集作为“带头”大哥，即驱动数据，而这个驱动数据最好是数据量最小的那一个。

SQL优化中，有一条放之四海而皆准的既定方针，那就是：永远以小数据驱动大数据。其本质其实就是以小的数据样本作为驱动查询能够优化查询效率，在SQL中，涉及到不同表数据的连接、转移、或者合并，这些操作必须得有个数据集作为“带头”大哥，即驱动数据，而这个驱动数据最好是数据量最小的那一个。

内大外小

在讨论数据库之前，日常开发中，我们经常会遇到数据样本数量不一致，但是需要进行检索的情况，比如某人在地铁的某节车厢里捡到N台Iphone，而车厢里正好有T个人，他应该怎么去检索双样本数据，从而找到失主？

for (int i = 0; i < N; i++)  
     for (int j = 0; j < T; j++)  
     find();

一般的说法是把循环次数少的循环放在外面，其实，这个问题的主要原因是CPU内部的指令执行机制。现在，基本上CPU内部都有分支指令预测，就是当执行（现在大多将这一阶段提前到预取指令时执行）到转移指令时，都会直接从分支目标缓存（BTB）中取出目标指令的地址，然后将要执行的指令提前预取到CPU的指令预取指令队列中。这样，显然大大提高了效率。一个N次的一层循环在执行时，除了在第一次和最后一次会预测错误外，其他N-i次都会预取成功，避免了执行转移指令时重新取出新指令造成的时间浪费。所以，当有两层循环，外层循环数为N，内层为T，N远大于T，那么最终造成的预测错误数为N*2+2，而如果外层数为T，内层数为N，预测错误数为T*2+2，显然后者要节省更多时间，而且这个时间是很可观的。N比T越大，这个时间差越明显。

连表查询

回到数据库场景，连表查询操作本质上其实就是扫描驱动表数据，根据条件，逐一去大表找数据，由小表作为驱动表，小表数据少，那么去大表找数据时，能减少数据的找寻量。体现在底层上也就减少了网络的IO，内存，自然效率就高。

不同的连表方式也会有不同的驱动表，左连接中左边为驱动表,右边为被驱动表；右连接中右边为驱动表,左边为被驱动表；内连接中Mysql会选择数据量比较小的表作为驱动表，大表作为被驱动表。我们也可以通过EXPLANIN关键字查看SQL语句的执行计划，从而搞清楚一次连表查询中的驱动表到底是那一张。

底层原理

连表查询操作时，数据库会从头到尾扫描驱动表，复杂度为O(n)，也就是说有N条就要查N次，随后再逐一去其它关联表查询数据，众所周知，由于Mysql采用B+tree方式进行存放数据，关于B+tree，请移步：霜皮剥落紫龙鳞，下里巴人再谈数据库SQL优化，索引(一级/二级/聚簇/非聚簇)原理，因此查询时间复杂度为O(logn)，总时间复杂度即为O(n)*O(logn)，说白了就是驱动数据集有多少条数据，就得在B+tree中查询O(logn)次。

假设表n数据小于表m，则连表查询操作时，O(n)*O(logm) 小于 O(m)*O(logn)，因此小数据集作为驱动数据相对就比较有效率。

子查询

外小内大原则也同样适用于子查询，当子表的数据集较小时，使用In操作，效率较高：

SELECT * FROM A WHERE ID IN (SELECT ID FROM B)

这里B表的数据量小于A表数据，很明显B表作为查询筛选的驱动表。

反之，当B表数据量大于外侧的数据表A:

SELECT * FROM A WHERE  EXISTS (SELECT 1 FROM B WHERE B.ID = A.ID)

此时使用EXISTS的效率更高，因为EXISTS是将主查询的数据放到子查询中做条件验证，根据验证结果（TRUE或者FALSE）来决定主查询的数据结果是否能够得以保留。

结语

循环嵌套优化原则的外小内大，数据库SQL优化原则的以小博大，一脉相承，同出一辙，大道至简，殊途同归。

以小博大外小内大,Db数据库SQL优化之小数据驱动大数据

内大外小

连表查询

底层原理

子查询

结语

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

以小博大外小内大,Db数据库SQL优化之小数据驱动大数据

内大外小

连表查询

底层原理

子查询

结语

热门文章

最新文章

相关课程

相关电子书