1.前言
MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。
MaxCompute基于ODPS2.0新一代的SQL引擎,显著提升了SQL语言编译过程的易用性与语言的表达能力。我们在此推出MaxCompute(ODPS2.0)重装上阵系列文章:
第一弹 - 善用MaxCompute编译器的错误和警告
第二弹 - 新的基本数据类型与内建函数
第三弹 - 复杂类型
第四弹 - CTE,VALUES,SEMIJOIN
第五弹 - SELECT TRANSFORM
第六弹 - User Defined Type
第七弹 - Grouping Set, Cube and Rollup
第八弹 - 动态类型函数
第九弹 - 脚本模式与参数视图
上一篇介绍了脚本模式,可以了解到脚本模式执行时是作为一个整体进行编译、提交,生成一个执行计划实现一次排队一次执行可充分利用资源,这个过程可以看到完整的执行计划给开发者提供更多的优化机会, 且书写自然对习惯用普通编程语言方式书写的开发者更友好。
更重要的是脚本模式支持IF ELSE分支语句,可以让程序根据条件自动选择执行逻辑。如脚本需要能够按照日期单双号选择不同的逻辑;脚本能够根据一个TABLE的行数采取不同的策略等业务场景,这个特性就可以很好的处理这类业务场景产生的复杂SQL,给了SQL开发者更多的操作空间。
本文中有例子采用MaxCompute Studio作展示,安装MaxCompute Studio的可以参照安装MaxCompute Studio相关文档进行安装并使用。
2. IF ELSE分支语句
2.1 语法格式
Max Compute的IF语法有以下几种:
IF (condition) BEGIN
statement 1
statement 2
...
END
IF (condition) BEGIN
statements
END ELSE IF (condition2) BEGIN
statements
END ELSE BEGIN
statements
END
2.2 注意:
- 当BEGIN和END内部只有1条语句,则可以省略。(类似于Java中的'{ }')。
- 多个IF-ELSE可以相互嵌套使用。
- Condition有2种,分别是Boolean表达式,和Boolean的Scalar subquery。
Boolean表达式的IF-ELSE可以在编译阶段决定执行哪个分支如
从MaxCompute Studio的执行图可以看到,最终的作业只执行了src1的分支- Scalar Subquery,这种类型的IF ELSE在编译阶段无法决定执行哪个分支。如下内容编译器并不知道tb_1表中的数据,因此不能决定Condition是true还是false,而是在运行时才能决定。因此,需要提交多个作业。
由下图MaxCompute Job执行图可以看到,这个任务一共提交了2个作业。
其中,第一个计算(SELECT count(*) FROM tb_1 ) > 1
第二个计算剩余的部分。
执行结果如下图:
3. 示例
对于复杂的sql来说,常常有包含if else的逻辑,例如如下:
select a.id
, greatest(b.c1, c.c1 ) as c1
, greatest(b.c2, c.c2 ) as c2
..
from (
select * from ta
) a
left outer join (
select * from (
select tx.id , ty.c1 ,ty.c2
(
select *
from foo ) tx
join
(
select *
from bar
) ty on tx.id2=ty.id2
) b on a.id= b.id
left outer join (
select * from tc
)c on a.id=c.id ;
由于业务发生变化, 数据能与b表关联上的比较少,很多时候b表是空 ,但是偶尔有一定的流量。 表bar 数据量比较大,意味着foo join bar 代价较高。 所以希望脚本能实现这样的逻辑:当b表的流量为0的时候,改变sql执行逻辑只与tc关联。可以用if else分支语句如下:
@a := select * from ta;
@b :=SELECT tx.id
,ty.c1
,ty.c2 ( SELECT * FROM foo ) tx
JOIN (
SELECT *
FROM bar
) ty
ON tx.id2 = ty.id2;
@c := select * from tc;
@select_expr table (id bigint ,c1 string,c2 string ...);
IF ( cast( (select count(*) as cnt from @b ) as int) == 0 ) BEGIN
@select_expr := select a.id
, c. c1
, c.c2
...
from @a
left outer join
@c on a.id=c.id;
END ELSE BEGIN
@select_expr := select a.id
, greatest(b.c1, c.c1 ) as c1
, greatest(b.c2, c.c2 ) as c2
..
from @a a left outer join @b on a.id= b.id
left outer join @c on a.id=c.id;
4. 小结
MaxCompute基于ODPS 2.0的SQL引擎,提供了IF-ELSE分支语句,可以提高开发者编程的灵活性!
MaxCompute平台致力于持续提升SQL语言的表达能力,让我们期待下一弹内容。