分区表查询条件使用浅析

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如果有个分区表,分区列为A、B、C三列,我要查询B列为某些值的数据,MaxCompute还能充分发挥分区表的优势吗?答案是肯定的,MaxCompute依然能发挥分区列的优势!在底层解析SQL执行计划时,只会将符合条件的分区纳入计算,而不是进行全表扫描。

很多同学已经跨入了MaxCompute的殿堂,对分区表和非分区表有了初步了解,也充分意识到“大数据量”的信息表要尽可能的采用分区方式,因为这样在查询、统计、分析的时候,在WHERE条件中可以利用分区列进行过滤,从而提升查询效率,减少不必要的计算开销。有细心的同学就会将问题引申:如果有个分区表,分区列为ABC三列,我要查询B列为某些值的数据,MaxCompute还能充分发挥分区表的优势吗?答案是肯定的,MaxCompute依然能发挥分区列的优势!在底层解析SQL执行计划时,只会将符合条件的分区纳入计算,而不是进行全表扫描。接下来我们用MaxCompute提供的工具来分析下相关SQL的执行效果。

一、数据准备

实验中使用的数据保存在文件《测试分区列过滤.csv》中,共27条记录,分区列为ABC三列。从分区(a=a1,b=b1,c=c1)到分区(a=a3,b=b3,c=c3)共27个分区,每个分区中有1条数据。

47818890c325d81a57f6c894da924c78fcc052b7 

实验数据最终要插入到分区表中,因为Tunnel工具不支持直接将数据导入到分区表,所以我们要通过一个“类似结构”的非分区表搭桥——先将文件中的数据导入到一个非分区表中,然后再使用动态SQL将非分区表的数据插入到分区表中。接下来进行具体操作:

1. 创建中间数据表

DataWorks的【数据开发】中【新建脚本文件】,然后执行下面的建表SQL语句:

-- 创建对应的非分区表

CREATE TABLE temp_test_wfq(

  bh BIGINT COMMENT '编号',

  bt STRING COMMENT '标题',

  a STRING COMMENT '分区列A',

  b STRING COMMENT '分区列B',

  c STRING COMMENT '分区列C'

) COMMENT '测试分区列过滤_无分区' LIFECYCLE 30;

2. 将实验数据导入表【temp_test_wfq】中

将文件《测试分区列过滤.csv》中的样例数据导入中间数据表【temp_test_wfq】中。详细操作参见阿里云官方文档导入本地数据,本文不再赘述。

3. 创建实验使用的分区表

DataWorks的【数据开发】中【新建脚本文件】,然后执行下面的建表SQL语句:

-- 创建分区表,分区列为ABC3

CREATE TABLE temp_test(

  bh BIGINT COMMENT '编号',

  bt STRING COMMENT '标题'

) COMMENT '测试分区列过滤'

PARTITIONED BY (

  a STRING COMMENT '分区列A',

  b STRING COMMENT '分区列B',

  c STRING COMMENT '分区列C'

) LIFECYCLE 30;

4. 使用动态SQL将非分区表中的数据插入到分区表中

在前面操作中,已经将数据导入到了非分区表中,接下来使用动态SQL语句,将非分区表中的数据迁移到分区表中,具体SQL如下:

-- 使用动态SQL,将非分区表中的数据插入到分区表

INSERT OVERWRITE TABLE temp_test PARTITION (a,b,c)

  SELECT * FROM temp_test_wfq

;

5. 确认实验数据已准确插入到分区表中

DataWorks的【数据开发】中【新建脚本文件】,然后执行下面的建表SQL语句:

-- 查询数据表【temp_test】中的数据

SELECT * FROM temp_test ORDER BY bh LIMIT 100;

返回结果应该有27条数据,如下图所示:

6fbb0ea3edd30c2afff34c122e3a0a49675910d3

二、测试分区列过滤

 

为了能够看到SQL的执行计划,需要使用EXPLAIN命令来进行展现分析结果,具体SQL语句如下:

-- 解释SQL

EXPLAIN SELECT * FROM (

SELECT * FROM temp_test WHERE a = 'a1'                  --SQL1:M1_Stg1

UNION ALL

SELECT * FROM temp_test WHERE b = 'b2'                  --SQL2:M2_Stg1

UNION ALL

SELECT * FROM temp_test WHERE c = 'c3'                  --SQL3:M3_Stg1

UNION ALL

SELECT * FROM temp_test WHERE b = 'b1' AND c = 'c2'        --SQL4:M4_Stg1

UNION ALL

SELECT * FROM temp_test WHERE a = 'a3' AND c = 'c1' AND bt LIKE '%b2%'    --SQL5:M5_Stg1

) a;

EXPLAINSQL语句,是将5个子查询的结果UNION后,统一返回一个结果集。最终解释执行计划如下图所示:

{}b0bfffd10bb3be47ac4dc394bad5d28e967b222f

1. Job0解读

上面的EXPLAIN结果我们逐段展开解释:

3eacf6e969c6761006c902bdc549bee1d77921e4

上图中包含了2部分信息:1.job0 is root job】表示该查询语句只转换为了1个作业,所以只有一条关于“job0”的作业信息。2.In Job job0】后续描述了该作业包含的ROOT任务有“M1_Stg1, M4_Stg1, M2_Stg1, M3_Stg1, M5_Stg1”,共5个。

2. Task M1_Stg1解读

In Task M1_Stg1】对应的内容,则详细阐释了此任务的执行语义:

140fd94bfb993bf5d7226b16dcb0fcca86e61b69 

Data source】说明了,该任务的数据源自数据表test_create_projecta.temp_test9个分区,也就是说参与本次运算的数据为这9个分区的数据。仔细观察,还会发现所列出的分区,a列对应的值都是“a1”。

TS】块说明对表“temp_test”进行了“TableScanOperator”操作,SQL语句中对应的部分就是“FROM temp_test”。

FIL】块说明了对数据进行等值过滤,SQL语句相当于“WHERE temp_test.a = 'a1'”。

SEL】块说明了返回的结果数据列,有5列:temp_test.bh, temp_test.bt, temp_test.a, temp_test.b, temp_test.c

UNION】块说明还要跟后续的【SEL】块的查询结果进行UNION操作。

FS】块说明进行最终的输出表操作,因为本条SQL语句没有将结果输出到具体表中,所以输出的目标为“None”。

通过以上分析,该TASK对应的SQL应该是子查询SQL1SELECT * FROM temp_test WHERE a = 'a1'”,最终分区列过滤发挥了作用,参与运算的有9个分区。

3. Task M2_Stg1解读

c0baf9d4c8b642b21d7ffb80a366b70dd116b18e

Data source】说明了,该任务的数据源自数据表test_create_projecta.temp_test9个分区,也就是说参与本次运算的数据为这9个分区的数据。仔细观察,还会发现所列出的分区,b列对应的值都是“b2”。

TS】块说明对表“temp_test”进行了“TableScanOperator”操作,SQL语句中对应的部分就是“FROM temp_test”。

FIL】块说明了对数据进行等值过滤,SQL语句相当于“WHERE temp_test.b = 'b2'”。

SEL】块说明了返回的结果数据列,有5列:temp_test.bh, temp_test.bt, temp_test.a, temp_test.b, temp_test.c

UNION】块说明还要跟后续的【SEL】块的查询结果进行UNION操作。

FS】块说明进行最终的输出表操作,因为本条SQL语句没有将结果输出到具体表中,所以输出的目标为“None”。

通过以上分析,该TASK对应的SQL应该是子查询SQL1SELECT * FROM temp_test WHERE b = 'b2'”,最终分区列B的过滤条件也发挥了作用,只有(b = 'b2')的9个分区参与了运算。

另外3TASK,感兴趣的同学也可以自己深入分析一下,相信对分区列的过滤查询会有更深刻体会。

三、小结

通过上述实验,我们可以直观的看到,分区表进行查询时,WHERE条件中对分区列进行了等值过滤,会很有效的避免了全表参与运算。MaxCompute在解释SQL时,会只将符合条件的分区数据,纳入到运算里面来,从而显著提升了计算效率,节省了运算成本。

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
SQL 监控 关系型数据库
避免锁表:为Update语句中的Where条件添加索引字段
在一个灰度环境中,某业务创建数据时出现异常延迟,原本以为是第三方接口问题,但日志显示接口响应正常。进一步排查发现,工单表的SQL插入操作因另一个业务的无索引UPDATE操作阻塞。具体问题在于UPDATE语句的where子句涉及字段缺失索引,导致锁表并影响并发性能。通过复现问题并为相关字段添加索引,解决了阻塞问题。重要的是,在编写UPDATE语句时要注意Where条件字段的索引,以优化查询并减少锁表影响。
145 6
避免锁表:为Update语句中的Where条件添加索引字段
|
5月前
|
SQL 关系型数据库 MySQL
MySQL】-DQL(基本、条件、分组、排序、分页)详细版
通过这些查询方法,你可以高效地检索、分析和组织MySQL数据库中的数据,以满足各种应用需求。实践中,理解这些SQL语句的基础知识以及它们如何组合起来进行复杂的数据操作是至关重要的。
63 1
|
8月前
|
Oracle 关系型数据库
Oracle查询优化-根据条件取不同列的值排序
【1月更文挑战第3天】【1月更文挑战第9篇】有时排序的要求会比较复杂,比如,领导对工资在 1000 到 2000元之间的员工更感兴趣,于是要求工资在这个范围的员工要排在前面,以便优先查看。这种情况就不仅仅使用ORDER BY了。
182 0
|
SQL Java 关系型数据库
索引操作
索引操作
66 0
|
存储 索引
为什么范围后索引会失效 存储引擎不能使用索引中范围条件右边的列
比如说有三个字段 a b c,建立复合索引a_b_c。此时叶子节点的数据排序后可能为
127 0
|
存储 关系型数据库 MySQL
MySQL中什么是什么是主键索引、联合索引、覆盖索引、索引条件下推及区别
主键索引:它是一种特殊的唯一索引,不允许有空值,一般在建表的时候指定主键,就会创建主键索引,CREATE INDEX不能用来创建主键索引,通常使用ALTER TABLE来代替。
185 0
SQL.查询-单条件-动态条件查询
SQL.查询-单条件-动态条件查询
151 0
SQL.查询-单条件-动态条件查询
SQL.查询-多条件-动态条件查询
SQL.查询-多条件-动态条件查询
121 0
SQL.查询-多条件-动态条件查询
|
SQL 关系型数据库 MySQL
这个大表走索引字段查询的 SQL 怎么就成全扫描了
这个大表走索引字段查询的 SQL 怎么就成全扫描了
这个大表走索引字段查询的 SQL 怎么就成全扫描了
|
SQL Java 数据库连接
JPA的多表复杂查询
JPA的多表复杂查询
299 0