使用set参数优化ODPS SQL数据倾斜与Join性能-开发者社区-阿里云

带你读《2022技术人的百宝黑皮书》——ODPS SQL优化总结(6)

2023-06-12 985

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——ODPS SQL优化总结(6)

带你读《2022技术人的百宝黑皮书》——ODPS SQL优化总结(5) https://developer.aliyun.com/article/1247145?groupCode=taobaotech

UDF相关参数

set odps.sql.udf.jvm.memory=1024

作用: 设定UDF JVM Heap使用的最大内存，单位M，默认1024M，在[256，12288]之间调整。

场景：某些UDF在内存计算、排序的数据量比较大时，会报内存溢出错误，这时候可以调大该参数，不过这个方法只能暂时缓解，还是需要从业务上去优化。

set odps.sql.udf.timeout=1800

作用：设置UDF超时时间，默认为1800秒，单位秒。[0，3600]之间调整。

set odps.sql.udf.python.memory=256

作用：设定UDF python 使用的最大内存，单位M，默认256M。[64，3072]之间调整。

set odps.sql.udf.optimize.reuse=true/false

作用：开启后，相同的UDF函数表达式，只计算一次，可以提高性能，默认为True。

set odps.sql.udf.strict.mode=false/true

作用：True为金融模式，False为淘宝模式，控制有些函数在遇到脏数据时是返回NULL还是抛异常，True是抛出异常，False是返回null。

Mapjoin设置

654set odps.sql.mapjoin.memory.max=512

作用：设置Mapjoin时小表的最大内存，默认512,单位M，[128，2048]之间调整。

动态分区设置

set odps.sql.reshuffle.dynamicpt=true/false

作用：默认true，用于避免拆分动态分区时产生过多小文件。如果生成的动态分区个数只会是很少几个,设为false避免数据倾斜。

数据倾斜设置

set odps.sql.groupby.skewindata=true/false

作用：开启Group By优化。

set odps.sql.skewjoin=true/false

作用：开启Join优化，必须设置odps.sql.skewinfo 才有效。

SQL优化案例一：关联与数据倾斜

背景

常规的一段SQL逻辑，近90天淘宝天猫订单表作为主表，左关联商品属性表，左关联SKU属性表。

第一阶段：业务诉求里只需要取40个叶子类目的订单数据，常规开发上线运行两个月，暂时没有发现任何运行缓慢的问题。

第二阶段：业务诉求叶子类目扩展到所有实物类目，开发上线后发现JOIN节点出现了运行缓慢的问题，运行时长到达了4个小时。

带你读《2022技术人的百宝黑皮书》——ODPS SQL优化总结(7) https://developer.aliyun.com/article/1247143?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——ODPS SQL优化总结(6)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《2022技术人的百宝黑皮书》——ODPS SQL优化总结(6)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书