开源分布式数据库PolarDB-X源码解读——PolarDB-X源码解读(十二):谈谈in常量查询的设计与优化

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 开源分布式数据库PolarDB-X源码解读——PolarDB-X源码解读(十二):谈谈in常量查询的设计与优化

作者:越寒


一、介绍


如标题所示,这是一篇介绍in常量查询的源码解读文章,但又不限于in常量查询,因为其中涉及的很多设计与优化对于大多数查询都是普适的。一如往常一样,我们首先会过一遍整体的执行流程,梳理一个大致的框架。紧接着,同时也是更重要的,我们会通过一系列在真实场景中遇到的问题(说白了就是性能优化),来对各种细节处理进行增强。


温馨提醒:建议有条件有兴趣的同学可以对照着本篇文章边调试(我基本上把重要的断点位置都截了图)边学习边思考,这样印象和理解应该会更加深刻。


希望大家在读完之后,可以尝试着回答以下一些问题来进行某种测验:  


 什么是分片裁剪?为什么要进行分片裁剪?

 为什么要对物理SQL中值进行裁剪?

 什么是plan cache?为什么需要?

  为什么需要post planner ?

 XPlan是什么?为什么Xplan比物理SQL更优?

 为什么要有一个ToDrdsRelVisitor?

 什么是全局二级索引? 如何利用?

 其他散落于文章中或者阅读时的问题。


二、从大致的流程说起


:详细的执行流程请参考文章,https://zhuanlan.zhihu.com/p/457450880。我们这里只介绍其中几个比较重要的环节。我们拿一个非常简单的场景来看一下吧,一个简单的表如下,create table t(c1 int, c2 int, c3 int) dbpartition by hash(c1) tbpartition by hash(c1) tbpartitions 2,一条最简单的SQL如下:select c3 from t where c1 in (1,2)。挑了五个阶段进行了并不太详尽的说明,如果你感觉比较抽象时,也可以动手调试一下,一些概念应该就会更加清晰了。


1.阶段一


我们需要将SQL文本解析为语法树,如果不合法,则报错,关键断点如下图,其中sql为输入的查询语句,statement为经过解析后的语法树。  


         


         


需要注意的是,在这个地方,我们是只进行语法解析,而不进行语义解析。什么意思呢,比如你现在输入的SQL为select c1 from tt,此时虽然我们没有tt这张表,但是断点处还是会正常解析出一个SQLSelectStatement,有兴趣的同学可以打个断点试一下。


2.阶段二


如上分析,我们现在要进行语义的校验了,比如我怎么知道这张表存不存在,以及是否含有这个列呢?


              



             



             


3.阶段三


构建执行计划,在toRel时将由SqlNode构成的AST转换为由RelNode组成的逻辑计划。


             



             


埋一个坑把,有兴趣的同学可以结合代码思考一下,既然我们已经拿到了逻辑执行计划,那么ToDrdsRelVisitor的作用是什么呢?


4.阶段四


对执行计划进行优化,以期获得较为优异的执行效果。  


               


5.阶段五


拿到执行计划之后,紧接着我们来看一下是在哪里执行的,以及是如何执行的。


               



               


我们可以简单看一下这个plan,这是一个非常简单的plan,最上层是一个Gather用来聚合下层多个logicalView的结果,而logicalView中包含了如何与存储节点进行交互的信息。根据plan拿到相应的handler,然后进行调用就可以了。


               



               


在这个场景中,我们会递归调用logicalView的handler。


OK,以上就是一个大概的执行流程,接下来我们来真正深入到一些细节看一下,我们如何将这个大致的流程进行丰富以使其能够满足工业生产的需求。


6.现实中的使用场景


In查询列表中的值不固定,个数亦不固定。


7.优化思路


 单条SQL的优化,比如分片裁剪,物理SQL中in值的裁剪,使用XPlan代替物理SQL。

 大量执行相似的SQL时,避免重复性且不必要的工作,如避免每次重新生成plan。

 对其中一些特殊场景进行更加极致的优化,比如单分片直接下推。

 通过添加索引进行优化,在这里我们主要讨论全局二级索引。  


8.具体的优化


1)单条SQL的优化


分片裁剪:只访问必须访问的分片


Q:select * from t where c1 in (1,2) 会向所有分片下发物理SQL么?


A:不会的。通过上面的分析,我们下发的物理SQL为select * from t_physical_table where c1 in (1,2),t_physical_table为逻辑表t所对应的物理表。而由于表t的分库键和分表键均为c1,因此显然我们只需要向两张可能存在匹配记录的物理表下发物理SQL即可,获取裁剪后的分表信息如下图。  


           

                                                                            image


分片裁剪是一定需要调用分片计算,分片计算的逻辑在这里。  


             

                                                                              image


物理SQL中in值的裁剪:只留下有用的in值


Q:下发的物理SQL中,是否会对in的列表进行裁剪呢?


A:会的,而且对下发的物理SQL中的in列表中的值进行裁剪,主要有两个好处,一是尽可能避免下发的物理SQL导致不必要的全表扫描,二是减少下发物理SQL的长度。


             

                                                                                     image


             

                                                                                 image  


上图中PruneRaw即代表裁剪后的in查询列表。


2)使用XPlan代替物理SQL:避免DN节点进行物理SQL的解析优化


注:详情可参考链接文章中的执行计划传输部分,https://zhuanlan.zhihu.com/p/308173106#:~:text=PolarDB:in查询其实暂时是不支持传输执行计划的。 但我觉得可能没什么特别特殊的地方,像传输其他的plan一样,我们需要在计算层指定数据的访问方式(即指定索引),然后进行适配和对接。


3)避免每次重新构建plan


避免参数值不同而反复构建plan


Q:每次都进行plan的构建,看起来并不是非常有必要,比如select * from t where id in (1,2) 和select * from t where id in (2,3)。

A:是的,所以我们对plan进行了缓存,这就是PlanCache组件,可以理解为Map。很自然的,我们需要对上述两条SQL进行参数化以便从map中进行查找,即参数化为select * from t where id in (?,?)的形式,代码在


           

                                                                                image


           

                                                                               image


避免参数个数不同而反复构建plan


Q:细心的同学可能感觉有点奇怪,上面的select c1,c3 from t where c1 in (1,2) 参数化后为 select c1,c3 from t where c1 in (?),而非select c1,c3 from t where c1 in (?,?),这是为什么?  


A:这样做是为了避免plan cache的膨胀,因为这样参数化之后,select c1,c3 from t where c1 in (1,2) 和select c1,c3 from t where c1 in (1,2,3,4)就是共用一个plan cache了;此外,这样还可以减少参数化SQL占用的内存,想象一下,有些SQL中in列表中的值多达几十万个呢。


4)单分片场景优化


Q:对于某些场景,是否有更近一步的优化,毕竟TP是需要尽可能的高性能的。


A:有的,比如单分片的场景,in列表中的值会落在同一个物理分表上。 我们可以思考下此时下面的执行计划是否可以简化?


             


答案是显然的,在单分片场景下,上层的Gather是完全不需要的,否则我们在执行时会有额外的执行开销。


引申:我们可以再结合前面的参数化与plan cache来理解这个问题,即参数不同的SQL的最优执行计划其实并非总是相同的,但我们为了避免每次重复生成plan,又会缓存一个plan,于是我们需要一个能够对plan进行优化的能力。


我们大概可以把这种情况分成两种,一种是参数不同导致选择的join算法不同,比如是选择bka join还是hash join,为了解决这个问题,我们引入了执行计划管理模块(SPM);另一种则跟我们的架构有非常大的关系,因为我们下层的DN(可以简单理解为mysql)显然是具备执行各种SQL的能力的,而如果在某些参数下,经过裁剪后只剩下一个分片了,则该SQL经过物理表名的替换后可直接下发到DN执行,计算层只需要等待结果返回即可,无需做任何其他的操作。


为了实现第二种效果,我们在planner阶段增加了一个阶段,叫做post planner,在post planner中会判断是否能够下推到某个分片,默认为打开,上图中为了演示需要,特意使用hint进行了关闭。


           

                                                                               image


               

                                                                                  image


               

                                                                                  image


5)添加全局二级索引


:索引,本质是一种修改与查询的权衡,需要用户谨慎考虑,尤其写入全局索引会带来较大的分布式事务开销。


Q:分片建已经确定了,in查询的字段没有跟分片对齐,是不是无法做分片裁剪了,还能优化么?  


A:可以考虑增加全局二级索引。我们来举个例子吧,比如table: t3(c1 int, c2 int, c3 int) dbpartition by hash(c1); SQL为select c3 from t3 where c2 in (1,2),由执行计划可知我们无法进行分片裁剪,因此需要访问所有8个分片,如下:


                                                                                                 

                                                                                  image


现在让我们来考虑一下如何优化?


我们的目的是希望减少访问的分片数,而之所以无法进行分片的裁剪,是因为in查询的字段和分片键没有对齐。于是解决方案也很简单,我们增加一个拆分键与in查询字段对齐的全局的二级索引即可,有关全局二级索引的介绍,可参考链接,https://help.aliyun.com/document_detail/182179.html。  


比如,我们执行如下添加全局二级索引的SQL,alter table t3 add global index g_c2(c2) covering(c1, c3) dbpartition by hash(c2),然后我们再来看下此时的执行计划,发现此时已经如我们所料进行了基于全局二级索引的分片裁剪,现在只需要扫描两个分片即可。


               

                                                                                  image


三、一个小练习


In列表中包含大量重复值时,可以如何优化?(我们现在的版本没有考虑这种情况)比如,有一个很简单的做法,在参数化时加一个去重,如下图。  


             

                                                                                  image


然后大家可以思考一下,需要注意什么,以及有什么问题么?


One More:横向对比与思考


大家有兴趣,有时间的,可以对比其他友商数据库进行比较与分析。


四、总结 


其实我在这篇文章里面,抛了挺多问题,有些给了一种便于叙述却未必全面的答案,有些则完全没有回答。最后的这个总结我觉得也留给大家来写了。

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
相关文章
|
2月前
|
存储 SQL 安全
应用案例|开源 PolarDB-X 在互联网安全场景的应用实践
中盾集团采用PolarDB-X云原生分布式数据库开源版本,有效解决了大数据量处理、复杂查询以及历史数据维护等难题,实现了业务的高效扩展与优化。
|
2月前
惊世骇俗!开源 PolarDB-X 部署安装大冒险,全程心跳与惊喜不断!
【9月更文挑战第8天】作为技术爱好者的我,近期成功完成了开源 PolarDB-X 的部署安装。尽管过程中遇到不少挑战,但通过精心准备环境、下载安装包、配置参数及启动服务等步骤,最终顺利实现部署。本文将详细介绍部署全过程及可能遇到的问题,为您的 PolarDB-X 探索之旅提供参考与启发,希望能让大家在技术海洋里畅游得更加顺利!
147 2
|
3月前
|
存储 缓存 负载均衡
【PolarDB-X 技术揭秘】Lizard B+tree:揭秘分布式数据库索引优化的终极奥秘!
【8月更文挑战第25天】PolarDB-X是阿里云的一款分布式数据库产品,其核心组件Lizard B+tree针对分布式环境优化,解决了传统B+tree面临的数据分片与跨节点查询等问题。Lizard B+tree通过一致性哈希实现数据分片,确保分布式一致性;智能分区实现了负载均衡;高效的搜索算法与缓存机制降低了查询延迟;副本机制确保了系统的高可用性。此外,PolarDB-X通过自适应分支因子、缓存优化、异步写入、数据压缩和智能分片等策略进一步提升了Lizard B+tree的性能,使其能够在分布式环境下提供高性能的索引服务。这些优化不仅提高了查询速度,还确保了系统的稳定性和可靠性。
90 5
|
3月前
|
存储
惊世骇俗!开源 PolarDB-X 部署安装大冒险,全程心跳与惊喜不断!
【8月更文挑战第8天】作为技术爱好者的我近期完成了开源PolarDB-X的部署安装,过程虽具挑战,但终获成功。现分享全过程:先确保服务器配置达标(内存、存储及网络)。接着下载官方最新稳定版,解压至指定目录。配置参数需细心调整以适配需求,如设置端口及数据路径。最后启动服务并留意可能的问题,如下载中断或配置错误等,可通过日志排查解决。部署完成后,见到服务正常运行时的喜悦难以言表。尽管PolarDB-X部署稍显复杂,但按部就班即可达成。期待与大家共同探讨学习!
168 1
|
3月前
|
存储 SQL 运维
“震撼发布!PolarDB-X:云原生分布式数据库巨擘,超高并发、海量存储、复杂查询,一网打尽!错过等哭!”
【8月更文挑战第7天】PolarDB-X 是面向超高并发、海量存储和复杂查询场景设计的云原生分布式数据库系统
109 1
|
3月前
|
C# UED 定位技术
WPF控件大全:初学者必读,掌握控件使用技巧,让你的应用程序更上一层楼!
【8月更文挑战第31天】在WPF应用程序开发中,控件是实现用户界面交互的关键元素。WPF提供了丰富的控件库,包括基础控件(如`Button`、`TextBox`)、布局控件(如`StackPanel`、`Grid`)、数据绑定控件(如`ListBox`、`DataGrid`)等。本文将介绍这些控件的基本分类及使用技巧,并通过示例代码展示如何在项目中应用。合理选择控件并利用布局控件和数据绑定功能,可以提升用户体验和程序性能。
64 0
|
4月前
|
存储 关系型数据库 MySQL
深度评测:PolarDB-X 开源分布式数据库的优势与实践
本文对阿里云开源分布式数据库 PolarDB-X 进行了详细评测。PolarDB-X 以其高性能、强可用性和出色的扩展能力在云原生数据库市场中脱颖而出。文章首先介绍了 PolarDB-X 的核心产品优势,包括金融级高可靠性、海量数据处理能力和高效的混合负载处理能力。随后,分析了其分布式架构设计,包括计算节点、存储节点、元数据服务和日志节点的功能分工。评测还涵盖了在 Windows 平台通过 WSL 环境部署 PolarDB-X 的过程,强调了环境准备和工具安装的关键步骤。使用体验方面,PolarDB-X 在处理分布式事务和实时分析时表现稳定,但在网络问题和性能瓶颈上仍需优化。最后,提出了改进建
7007 2
|
8天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
22 4
|
6天前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
19 1
|
15天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
77 1

热门文章

最新文章

相关产品

  • 云原生数据库 PolarDB