【笔记】SQL调优指南—SQL调优进阶—查询优化器介绍

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: 查询优化器通过优化逻辑计划从而输出物理计划,其主要阶段包含查询改写和计划枚举。本文将会介绍查询优化器的基本原理包含关系代数算子、查询改写(RBO阶段)、查询计划枚举(CBO阶段)。

PolarDB-X接收到一条SQL后的执行过程大致如下:333.png

  • 语法解析器(Parser)将SQL文本解析成抽象语法树(AST)。
  • 语法树被转化成基于关系代数的逻辑计划。
  • 优化器(Optimizer)对逻辑计划进行优化得到物理计划。
  • 执行器(Executor)执行该计划,得到查询结果并返回给客户端。

关系代数算子444.png一条SQL查询在数据库系统中通常被表示为一棵关系代数算子组成的树,有如下场景的算子:

  • Project:用于描述SQL中的SELECT列,包括函数计算。Agg:用于描述SQL中的Group By及聚合函数,其对应的物理算子有HashAgg、SortAgg。Sort:用于描述SQL中的Order By及Limit,其对应的物理算子有TopN、MemSort。
  • Filter:用于描述SQL中的WHERE条件。
  • JOIN:用于描述SQL中的JOIN,其对应的物理算子有HashJoin、 BKAJoin、Nested-Loop Join、SortMergeJoin等。
  • Agg:用于描述SQL中的Group By及聚合函数,其对应的物理算子有HashAgg、SortAgg。
  • Sort:用于描述SQL中的Order By及Limit,其对应的物理算子有TopN、MemSort。
  • 等等

例如,对于如下查询SQL


SELECT l_orderkey, sum(l_extendedprice *(1 - l_discount)) AS revenue
FROM CUSTOMER, ORDERS, LINEITEM
WHERE c_mktsegment = 'AUTOMOBILE'
  and c_custkey = o_custkey
  and l_orderkey = o_orderkey
  and o_orderdate < '1995-03-13'
  and l_shipdate > '1995-03-13'
GROUP BY l_orderkey;

通过如下EXPLAIN命令看到PolarDB-X的执行计划:


HashAgg(group="l_orderkey", revenue="SUM(*)")

HashJoin(condition="o_custkey = c_custkey", type="inner")
Gather(concurrent=true)
LogicalView(tables="ORDERS_[0-7],LINEITEM_[0-7]", shardCount=8, sql="SELECT `ORDERS`.`o_custkey`, `LINEITEM`.`l_orderkey`, (`LINEITEM`.`l_extendedprice` * (? - `LINEITEM`.`l_discount`)) AS `x` FROM `ORDERS` AS `ORDERS` INNER JOIN `LINEITEM` AS `LINEITEM` ON (((`ORDERS`.`o_orderkey` = `LINEITEM`.`l_orderkey`) AND (`ORDERS`.`o_orderdate` < ?)) AND (`LINEITEM`.`l_shipdate` > ?))")
Gather(concurrent=true)
LogicalView(tables="CUSTOMER_[0-7]", shardCount=8, sql="SELECT `c_custkey` FROM `CUSTOMER` AS `CUSTOMER` WHERE (`c_mktsegment` = ?)")

用树状图表示如下:555.png

查询改写(RBO)

查询改写(SQL Rewrite)阶段输入为逻辑执行计划,输出为逻辑执行计划。这一步主要应用一些启发式规则,是基于规则的优化器(Rule-Based Optimizer,简称RBO),所以也常被称为RBO阶段。

查询改写这一步的主要有如下功能:

  • 子查询去关联化(Subquery Unnesting)子查询去关联化是将含有关联项的子查询(关联子查询)表示为SemiJoin或类似的算子,便于后续的各种优化,例如下推到存储层MySQL或在PolarDB-X层选择某种算法执行。在如下例子中IN子查询转化为SemiJoin算子,并最终转化成SemiHashJoin物理算子由PolarDB-X进行执行:
> explain  select id from t1 where id in (select id from t2 where t2.name = 'hello');
SemiHashJoin(condition="id = id", type="semi")
Gather(concurrent=true)
LogicalView(tables="t1", shardCount=2, sql="SELECT `id` FROM `t1` AS `t1`")
Gather(concurrent=true)
LogicalView(tables="t2_[0-3]", shardCount=4, sql="SELECT `id` FROM `t2` AS `t2` WHERE (`name` = ?)")
  • 算子下推算子下推是非常关键的一步,PolarDB-X内置了如下算子的下推优化规则:
优化规则 描述
谓词下推或列裁剪 将Filter及Project算子下推至存储层MySQL执行,过滤掉不需要的行和列。
JOIN Clustering 将JOIN按照拆分方式及拆分键的等值条件进行重排和聚簇,方便下一步的JOIN下推。
JOIN下推 对于符合条件的JOIN,将其下推至存储层MySQL执行。
Agg下推 将聚合(Agg)拆分为FinalAgg和LocalAgg两个阶段,并将LocalAgg下推至存储层MySQL。
Sort下推 将排序(Sort)拆分为MergeSort和LocalSort两个阶段,并将LocalSort下推至存储层MySQL。

查询计划枚举(CBO)

查询改写阶段输出的逻辑执行计划会被输入到查询计划枚举(Plan Enumerator)中,并输出一个最终的物理执行计划。查询计划枚举在多个可行的查询计划中,根据预先定义的代价模型,选择出代价最低的一个。与查询改写阶段不同,在查询计划枚举中,规则可能产生更好的执行计划,也可能产生更差的执行计划,可以根据算子经过规则优化后的前后代价对比选出较优的那个,因此这也被称为基于代价的优化(Cost-based Optimizer,简称CBO)。

其核心组件有以下几个部分:

  • 统计信息(Statistics)
  • 基数估计(Cardinality Estimation)
  • 转化规则(Transform Rules)
  • 代价模型(Cost Model)
  • 计划空间搜索引擎(Plan Space Search Engine)

逻辑上,CBO的过程包括如下几个步骤:

  1. 搜索引擎利用转化规则,对输入的逻辑执行计划进行变换,构造出物理执行计划的搜索空间。
  2. 利用代价模型对搜索空间中的每一个执行计划进行代价估计,选出代价最低的物理执行计划。
  3. 代价估计的过程离不开基数估计,它利用各个表、列的统计信息,估算出各算子的输入行数、选择率等信息,提供给算子的代价模型,从而估算出查询计划的代价。
相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
相关文章
|
4月前
|
SQL 运维 监控
SQL查询太慢?实战讲解YashanDB SQL调优思路
本文是Meetup第十期“调优实战专场”的第二篇技术文章,上一篇《高效查询秘诀,解码YashanDB优化器分组查询优化手段》中,我们揭秘了YashanDB分组查询优化秘诀,本文将通过一个案例,助你快速上手YashanDB慢日志功能,精准定位“慢SQL”后进行优化。
|
3月前
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
|
3月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
4月前
|
SQL 数据库 数据安全/隐私保护
SQL查询优化:where子句的高效使用方式
总的来说,如果将 SQL 查询比喻为一个乐团的演奏,WHERE 子句就像是独奏者,它需要各位乐手的协助,才能发挥出最美妙的音乐。计划好你的演奏,挑选对的音符,在最适当的时间开始演奏,那么,你可以更高效地运用 SQL 查询,更好地把握数据的篇章。
88 19
|
4月前
|
SQL 数据库 数据安全/隐私保护
SQL查询优化:where子句的高效使用方式。
总的来说,如果将 SQL 查询比喻为一个乐团的演奏,WHERE 子句就像是独奏者,它需要各位乐手的协助,才能发挥出最美妙的音乐。计划好你的演奏,挑选对的音符,在最适当的时间开始演奏,那么,你可以更高效地运用 SQL 查询,更好地把握数据的篇章。
73 13
|
4月前
|
SQL 缓存 Java
框架源码私享笔记(02)Mybatis核心框架原理 | 一条SQL透析核心组件功能特性
本文详细解构了MyBatis的工作机制,包括解析配置、创建连接、执行SQL、结果封装和关闭连接等步骤。文章还介绍了MyBatis的五大核心功能特性:支持动态SQL、缓存机制(一级和二级缓存)、插件扩展、延迟加载和SQL注解,帮助读者深入了解其高效灵活的设计理念。
|
7月前
|
SQL 存储 关系型数据库
SQL自学笔记(3):SQL里的DCL,DQL都代表什么?
本文介绍了SQL的基础语言类型(DDL、DML、DCL、DQL),并详细说明了如何创建用户和表格,最后推荐了几款适合初学者的免费SQL实践平台。
521 3
SQL自学笔记(3):SQL里的DCL,DQL都代表什么?
|
7月前
|
SQL 数据挖掘 数据库
SQL自学笔记(2):如何用SQL做简单的检索
本文深入介绍了SQL的基本语法,包括数据查询、过滤、排序、分组及表连接等操作,并通过实际案例展示了SQL在用户研究中的应用,如用户行为分析、用户细分、用户留存分析及满意度调查数据分析。
110 0
SQL自学笔记(2):如何用SQL做简单的检索
|
7月前
|
SQL 数据挖掘 关系型数据库
SQL自学笔记(1):什么是SQL?有什么用?
本文为用户研究新手介绍SQL(结构化查询语言),解释了SQL的基本概念、入门方法及在用户研究中的应用通过实际案例说明,如用户行为分析、用户细分和满意度调查数据分析,展示了SQL在用户研究中的重要作用。
2100 0
SQL自学笔记(1):什么是SQL?有什么用?
|
9月前
|
SQL Oracle 关系型数据库
Oracle SQL:了解执行计划和性能调优
Oracle SQL:了解执行计划和性能调优
184 1