开源分布式数据库PolarDB-X源码解读——PolarDB-X源码解读(十二):谈谈in常量查询的设计与优化

本文涉及的产品
PolarDB Agent Express,2核4GB
云数据库 PolarDB MySQL 版,列存表分析加速 4核8GB
简介: 开源分布式数据库PolarDB-X源码解读——PolarDB-X源码解读(十二):谈谈in常量查询的设计与优化

作者:越寒


一、介绍


如标题所示,这是一篇介绍in常量查询的源码解读文章,但又不限于in常量查询,因为其中涉及的很多设计与优化对于大多数查询都是普适的。一如往常一样,我们首先会过一遍整体的执行流程,梳理一个大致的框架。紧接着,同时也是更重要的,我们会通过一系列在真实场景中遇到的问题(说白了就是性能优化),来对各种细节处理进行增强。


温馨提醒:建议有条件有兴趣的同学可以对照着本篇文章边调试(我基本上把重要的断点位置都截了图)边学习边思考,这样印象和理解应该会更加深刻。


希望大家在读完之后,可以尝试着回答以下一些问题来进行某种测验:  


 什么是分片裁剪?为什么要进行分片裁剪?

 为什么要对物理SQL中值进行裁剪?

 什么是plan cache?为什么需要?

  为什么需要post planner ?

 XPlan是什么?为什么Xplan比物理SQL更优?

 为什么要有一个ToDrdsRelVisitor?

 什么是全局二级索引? 如何利用?

 其他散落于文章中或者阅读时的问题。


二、从大致的流程说起


:详细的执行流程请参考文章,https://zhuanlan.zhihu.com/p/457450880。我们这里只介绍其中几个比较重要的环节。我们拿一个非常简单的场景来看一下吧,一个简单的表如下,create table t(c1 int, c2 int, c3 int) dbpartition by hash(c1) tbpartition by hash(c1) tbpartitions 2,一条最简单的SQL如下:select c3 from t where c1 in (1,2)。挑了五个阶段进行了并不太详尽的说明,如果你感觉比较抽象时,也可以动手调试一下,一些概念应该就会更加清晰了。


1.阶段一


我们需要将SQL文本解析为语法树,如果不合法,则报错,关键断点如下图,其中sql为输入的查询语句,statement为经过解析后的语法树。  


         


         


需要注意的是,在这个地方,我们是只进行语法解析,而不进行语义解析。什么意思呢,比如你现在输入的SQL为select c1 from tt,此时虽然我们没有tt这张表,但是断点处还是会正常解析出一个SQLSelectStatement,有兴趣的同学可以打个断点试一下。


2.阶段二


如上分析,我们现在要进行语义的校验了,比如我怎么知道这张表存不存在,以及是否含有这个列呢?


              



             



             


3.阶段三


构建执行计划,在toRel时将由SqlNode构成的AST转换为由RelNode组成的逻辑计划。


             



             


埋一个坑把,有兴趣的同学可以结合代码思考一下,既然我们已经拿到了逻辑执行计划,那么ToDrdsRelVisitor的作用是什么呢?


4.阶段四


对执行计划进行优化,以期获得较为优异的执行效果。  


               


5.阶段五


拿到执行计划之后,紧接着我们来看一下是在哪里执行的,以及是如何执行的。


               



               


我们可以简单看一下这个plan,这是一个非常简单的plan,最上层是一个Gather用来聚合下层多个logicalView的结果,而logicalView中包含了如何与存储节点进行交互的信息。根据plan拿到相应的handler,然后进行调用就可以了。


               



               


在这个场景中,我们会递归调用logicalView的handler。


OK,以上就是一个大概的执行流程,接下来我们来真正深入到一些细节看一下,我们如何将这个大致的流程进行丰富以使其能够满足工业生产的需求。


6.现实中的使用场景


In查询列表中的值不固定,个数亦不固定。


7.优化思路


 单条SQL的优化,比如分片裁剪,物理SQL中in值的裁剪,使用XPlan代替物理SQL。

 大量执行相似的SQL时,避免重复性且不必要的工作,如避免每次重新生成plan。

 对其中一些特殊场景进行更加极致的优化,比如单分片直接下推。

 通过添加索引进行优化,在这里我们主要讨论全局二级索引。  


8.具体的优化


1)单条SQL的优化


分片裁剪:只访问必须访问的分片


Q:select * from t where c1 in (1,2) 会向所有分片下发物理SQL么?


A:不会的。通过上面的分析,我们下发的物理SQL为select * from t_physical_table where c1 in (1,2),t_physical_table为逻辑表t所对应的物理表。而由于表t的分库键和分表键均为c1,因此显然我们只需要向两张可能存在匹配记录的物理表下发物理SQL即可,获取裁剪后的分表信息如下图。  


           

                                                                            image


分片裁剪是一定需要调用分片计算,分片计算的逻辑在这里。  


             

                                                                              image


物理SQL中in值的裁剪:只留下有用的in值


Q:下发的物理SQL中,是否会对in的列表进行裁剪呢?


A:会的,而且对下发的物理SQL中的in列表中的值进行裁剪,主要有两个好处,一是尽可能避免下发的物理SQL导致不必要的全表扫描,二是减少下发物理SQL的长度。


             

                                                                                     image


             

                                                                                 image  


上图中PruneRaw即代表裁剪后的in查询列表。


2)使用XPlan代替物理SQL:避免DN节点进行物理SQL的解析优化


注:详情可参考链接文章中的执行计划传输部分,https://zhuanlan.zhihu.com/p/308173106#:~:text=PolarDB:in查询其实暂时是不支持传输执行计划的。 但我觉得可能没什么特别特殊的地方,像传输其他的plan一样,我们需要在计算层指定数据的访问方式(即指定索引),然后进行适配和对接。


3)避免每次重新构建plan


避免参数值不同而反复构建plan


Q:每次都进行plan的构建,看起来并不是非常有必要,比如select * from t where id in (1,2) 和select * from t where id in (2,3)。

A:是的,所以我们对plan进行了缓存,这就是PlanCache组件,可以理解为Map。很自然的,我们需要对上述两条SQL进行参数化以便从map中进行查找,即参数化为select * from t where id in (?,?)的形式,代码在


           

                                                                                image


           

                                                                               image


避免参数个数不同而反复构建plan


Q:细心的同学可能感觉有点奇怪,上面的select c1,c3 from t where c1 in (1,2) 参数化后为 select c1,c3 from t where c1 in (?),而非select c1,c3 from t where c1 in (?,?),这是为什么?  


A:这样做是为了避免plan cache的膨胀,因为这样参数化之后,select c1,c3 from t where c1 in (1,2) 和select c1,c3 from t where c1 in (1,2,3,4)就是共用一个plan cache了;此外,这样还可以减少参数化SQL占用的内存,想象一下,有些SQL中in列表中的值多达几十万个呢。


4)单分片场景优化


Q:对于某些场景,是否有更近一步的优化,毕竟TP是需要尽可能的高性能的。


A:有的,比如单分片的场景,in列表中的值会落在同一个物理分表上。 我们可以思考下此时下面的执行计划是否可以简化?


             


答案是显然的,在单分片场景下,上层的Gather是完全不需要的,否则我们在执行时会有额外的执行开销。


引申:我们可以再结合前面的参数化与plan cache来理解这个问题,即参数不同的SQL的最优执行计划其实并非总是相同的,但我们为了避免每次重复生成plan,又会缓存一个plan,于是我们需要一个能够对plan进行优化的能力。


我们大概可以把这种情况分成两种,一种是参数不同导致选择的join算法不同,比如是选择bka join还是hash join,为了解决这个问题,我们引入了执行计划管理模块(SPM);另一种则跟我们的架构有非常大的关系,因为我们下层的DN(可以简单理解为mysql)显然是具备执行各种SQL的能力的,而如果在某些参数下,经过裁剪后只剩下一个分片了,则该SQL经过物理表名的替换后可直接下发到DN执行,计算层只需要等待结果返回即可,无需做任何其他的操作。


为了实现第二种效果,我们在planner阶段增加了一个阶段,叫做post planner,在post planner中会判断是否能够下推到某个分片,默认为打开,上图中为了演示需要,特意使用hint进行了关闭。


           

                                                                               image


               

                                                                                  image


               

                                                                                  image


5)添加全局二级索引


:索引,本质是一种修改与查询的权衡,需要用户谨慎考虑,尤其写入全局索引会带来较大的分布式事务开销。


Q:分片建已经确定了,in查询的字段没有跟分片对齐,是不是无法做分片裁剪了,还能优化么?  


A:可以考虑增加全局二级索引。我们来举个例子吧,比如table: t3(c1 int, c2 int, c3 int) dbpartition by hash(c1); SQL为select c3 from t3 where c2 in (1,2),由执行计划可知我们无法进行分片裁剪,因此需要访问所有8个分片,如下:


                                                                                                 

                                                                                  image


现在让我们来考虑一下如何优化?


我们的目的是希望减少访问的分片数,而之所以无法进行分片的裁剪,是因为in查询的字段和分片键没有对齐。于是解决方案也很简单,我们增加一个拆分键与in查询字段对齐的全局的二级索引即可,有关全局二级索引的介绍,可参考链接,https://help.aliyun.com/document_detail/182179.html。  


比如,我们执行如下添加全局二级索引的SQL,alter table t3 add global index g_c2(c2) covering(c1, c3) dbpartition by hash(c2),然后我们再来看下此时的执行计划,发现此时已经如我们所料进行了基于全局二级索引的分片裁剪,现在只需要扫描两个分片即可。


               

                                                                                  image


三、一个小练习


In列表中包含大量重复值时,可以如何优化?(我们现在的版本没有考虑这种情况)比如,有一个很简单的做法,在参数化时加一个去重,如下图。  


             

                                                                                  image


然后大家可以思考一下,需要注意什么,以及有什么问题么?


One More:横向对比与思考


大家有兴趣,有时间的,可以对比其他友商数据库进行比较与分析。


四、总结 


其实我在这篇文章里面,抛了挺多问题,有些给了一种便于叙述却未必全面的答案,有些则完全没有回答。最后的这个总结我觉得也留给大家来写了。

相关文章
|
11月前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
972 12
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
10月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
11月前
|
关系型数据库 分布式数据库 数据库
再获殊荣,阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
内存池化技术新突破,阿里云PolarDB蝉联SIGMOD最佳论文奖
|
8月前
|
Cloud Native 关系型数据库 MySQL
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
PolarDB-X 是阿里云推出的云原生分布式数据库,支持PB级存储扩展、高并发访问与数据强一致,助力企业实现MySQL平滑迁移。现已开放免费体验,点击即享高效、稳定的数据库升级方案。
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
|
8月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。
|
10月前
|
关系型数据库 分布式数据库 数据库
阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
阿里云PolarDB凭借全球首创基于CXL Switch的分布式内存池技术,在SIGMOD 2025上荣获工业赛道“最佳论文奖”,连续两年蝉联该顶会最高奖项。其创新架构PolarCXLMem打破传统RDMA技术瓶颈,性能提升2.1倍,并已落地应用于内存池化场景,推动大模型推理与多模态存储发展,展现CXL Switch在高速互联中的巨大潜力。
阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
|
11月前
|
Cloud Native 关系型数据库 分布式数据库
客户说|知乎基于阿里云PolarDB,实现最大数据库集群云原生升级
近日,知乎最大的风控业务数据库集群,基于阿里云瑶池数据库完成了云原生技术架构的升级。此次升级不仅显著提升了系统的高可用性和性能上限,还大幅降低了底层资源成本。
|
12月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
528 4
|
9月前
|
存储 负载均衡 NoSQL
【赵渝强老师】Redis Cluster分布式集群
Redis Cluster是Redis的分布式存储解决方案,通过哈希槽(slot)实现数据分片,支持水平扩展,具备高可用性和负载均衡能力,适用于大规模数据场景。
602 2

相关产品

  • 云原生数据库 PolarDB