一些MaxCompute日常优化案例分享

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute优化是一个多样而又重要的过程,优化过程需要能够深入理解ODPS的工作原理和内部机制,本文总结了以下几个日常优化案例,最终优化手段可能非常简单,但其中的分析过程较为重要,希望对大家有所启发。

前言

MaxCompute优化是一个多样而又重要的过程,优化过程中若能够深入理解ODPS的工作原理和内部机制,才能够更明确的发现运行过程中存在的问题,这样才能更有针对性地进行优化,优化需要不断思考和尝试不同的想法和方法,适当的时候我们可以寻求平台技术人员帮助,以找到最适合的优化方案。


以下通过日常几个优化案例,最终优化手段可能非常简单,但其中的分析过程较为重要,希望对他人有所启发。


一、dmj针对多union的一种优化

任务内容:多个表union all 后对其中的一些表进行distmapjoin关联。


任务线上经常报内存不够,以往处理基本是增加内存,内存到8192后则增加shard_count数量来减少内存使用,此种治标不治本的手段无法根治问题,仔细分析执行任务图发现,其中对应的加工逻辑有多个union all +distmapjoin,导致不合理的执行图如下:

image.png

图中可以看出一份数据对应4次分发(主表有union all四份数据),个人分析一个distmapjoin对应多路分发不合理,合理应该分发一份,但个人无法处理,寻求平台人员:

image.png

image.png

经测试此参数无效,平台人员给出另一参数。

image.png

关键参数:

set odps.optimizer.union.split.enable=false;

效果:执行图变的更加清爽,相对原来30步变为21步。

image.png

修改前资源消耗:

image.png

修改后资源消耗:


image.png


小结


由于消除了union all对应同一表多个distmap分发,最终运行cu及内存都减少一大半,整体运行稳定性提高。但我们开发任务时还是尽量不要加各种参数,去参数化也是平台人员的优化方向。


btw:关于参数设置带来收益问题可能很多人会有疑问,为什么平台不直接默认这些参数的合理设置,因为很多坏例子平台人员看到了而我们没有感知。当把这些坏例子消除则参数就不需要设置。


二、一个json解析参数的优化

前几天在针对一些计算资源较大任务排查时发现一任务曝光任务,任务整体执行一个小时,执行计划较简洁。

image.png

image.png

一千四百亿数据量运行一小时也问题不大,但当点击执行图中M5的详细内容如后

image.png

发现除读写外,project1算子占比64%(时间都花在这了),而且发现里面内容get_json_object调用9次,时间应该就是花在此处,记得多个get_json_object现在平台会自动转化为GET_JSON_OBJECT_TUPLE,但此处的确没有。因此任务增加参数


set odps.sql.udf.getjsonobj.new =true;

查看第二天任务运行情况,已转为GET_JSON_OBJECT_TUPLE批量取数,且project1算子占比出变成34%。

image.png

效果:执行时间对比:

image.png

加参数前:

image.png

加参数后:

image.png

整体可以看出,加参数前平均实例由15分钟变成7分钟,计算cu及内存将近下降一半,效果非常显著。


小结

优化的过程往往都不是什么高大上,建议正确的技能认知、有意识的发现及定位问题,解决问题可能就非常简单。


三、一个去group by 操作的优化

image.png

一位同学咨询一个问题,由于数据量特别大,里面涉及数据膨胀且最终group by做汇总,整体消耗非常大,但发现group by前后数据量只有微小变化,因此沟通是否可以剔除group by操作。

image.png

而且此数据是先膨胀后,里面有非常多的字段行间是相同的,因此增加重排可能会有较好效果,因此建议同学对sql进行改写

image.png

最终结果:存储:

image.png

此处数据量由600亿变900亿不是因为剔除了group by操作,是因为当天业务量增长的变成造成,但可以看到,由于增加了局部重排,存储减少非常多。


时间:

image.png

image.png


小结

很多时候group by 操作是否必要有业务要求,但也应该关注数据量的变化,一般情况需要考虑指数级别的数量减少,另外优化需要结合着多种手段,此处增加事中重排,存储减少带来收益的同时,下游读表的资源也将大大减少。最后的最后,若表只是简单map操作,那就变成简单加工,就应该考虑干掉这个任务或者视图替代了。


总结

odps性能优化是数据开发人员的必备技能,降低成本同时也能让乏味的工作有一丝丝乐趣。



来源  |  阿里云开发者公众号

作者  |  开七


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1月前
|
存储 分布式计算 大数据
MaxCompute聚簇优化推荐功能发布,单日节省2PB Shuffle、7000+CU!
MaxCompute全新推出了聚簇优化推荐功能。该功能基于 31 天历史运行数据,每日自动输出全局最优 Hash Cluster Key,对于10 GB以上的大型Shuffle场景,这一功能将直接带来显著的成本优化。
123 3
|
1月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
7天前
|
存储 SQL 分布式计算
MaxCompute 聚簇优化推荐原理
基于历史查询智能推荐Clustered表,显著降低计算成本,提升数仓性能。
69 4
MaxCompute 聚簇优化推荐原理
|
6天前
|
存储 并行计算 算法
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
【动态多目标优化算法】基于自适应启动策略的混合交叉动态约束多目标优化算法(MC-DCMOEA)求解CEC2023研究(Matlab代码实现)
|
16天前
|
大数据 数据挖掘 定位技术
买房不是拍脑袋:大数据教你优化房地产投资策略
买房不是拍脑袋:大数据教你优化房地产投资策略
66 2
|
1月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
1月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
1月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据在智能物流运输车辆智能调度与路径优化中的技术实现(218)
本文深入探讨了Java大数据技术在智能物流运输中车辆调度与路径优化的应用。通过遗传算法实现车辆资源的智能调度,结合实时路况数据和强化学习算法进行动态路径优化,有效提升了物流效率与客户满意度。以京东物流和顺丰速运的实际案例为支撑,展示了Java大数据在解决行业痛点问题中的强大能力,为物流行业的智能化转型提供了切实可行的技术方案。
|
1月前
|
机器学习/深度学习 数据采集 搜索推荐
你以为是“说走就走”?其实是“算好才走”:大数据是怎么悄悄优化旅游体验的?
你以为是“说走就走”?其实是“算好才走”:大数据是怎么悄悄优化旅游体验的?
58 0
|
2月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。

热门文章

最新文章