备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

请问下大数据计算MaxCompute：有哪些比较好的优化方案呢？

请问下大数据计算MaxCompute：数据倾斜导致JOB运行时间过长导致系统会自动kill掉job，有哪些比较好的优化方案呢？

展开

收起

真的很搞笑 2023-11-30 11:53:57 58 0

2 条回答

写回答

取消提交回答

芯在这

看下这里哈。https://help.aliyun.com/zh/maxcompute/use-cases/data-skew-tuning?spm=a2c4g.11186623.0.i10，此回答整理自钉群“MaxCompute开发者社区2群”

2023-11-30 21:17:29

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在大数据计算中，数据倾斜是指数据分布不均，在执行shuffle操作时导致某些分区的数据量远大于其他分区。这会导致处理速度变慢，从而使得整个Job的运行时间过长，甚至可能导致系统自动kill掉job。以下是一些优化数据倾斜问题的常见策略：
1. 重新设计键（Key）：
  
  避免使用高基数列作为Shuffle Key，以减少热点。
  如果可能的话，尝试找到一个更均匀分布的替代键。
2. 自定义分区器：
  
  使用自定义的分区函数来平衡数据分配，确保每个分区接收的数据量大致相同。
  根据业务逻辑或数据特征进行分区，比如通过哈希或者取模等方法。
3. 调整并行度：
  
  调整作业的并行度，增加worker的数量，将任务分解为更多小任务。
  对于Spark，可以设置spark.sql.shuffle.partitions参数，控制分区数量。
4. 聚合预处理：
  
  在进行全局聚合之前，先进行局部聚合，减小需要shuffle的数据量。
5. 数据重分布：
  
  在关键步骤前对数据进行重分布，使其更均匀地分布在集群节点上。
6. 使用Combiner：
  
  Combiner可以在map阶段合并部分结果，减轻reduce端的压力。
7. 动态负载均衡：
  
  利用系统的动态负载均衡机制，让系统自动重新调度任务以缓解热点。
8. 利用广播变量和累加器：
  
  对于较小的数据集，使用广播变量可以避免不必要的网络传输。
  累加器可以帮助统计信息汇总而无需大量的shuffle。
9. 代码优化：
  
  优化算法和实现，例如尽量避免使用全局排序等昂贵的操作。
2023-11-30 13:59:26

赞同展开评论打赏

问答分类：

大数据分布式计算 MaxCompute 云原生大数据计算服务 MaxCompute

问答标签：

大数据计算云原生大数据计算服务 MaxCompute 云原生大数据计算服务 MaxCompute优化云原生大数据计算服务 MaxCompute方案云原生大数据计算服务 MaxCompute MaxCompute 数据计算云原生大数据计算服务 MaxCompute方案

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关产品：

云原生大数据计算服务 MaxCompute

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

大数据计算MaxCompute中CONV 函数转化不了可以帮忙看下有没有其他方案解决？

24

1

0

在大数据计算MaxCompute中只想要雪花id 有其他方案吗？

36

0

0

大数据计算MaxCompute这两种方案，使用订单进行关联时，在运行效率上，哪种会更优呢？

22

1

0

大数据计算MaxCompute这块目前有方案能支持吗？

46

1

0

大数据计算MaxCompute有没有可以按MAC项目一键全部迁移的方案呢？

40

1

0

maxcompute 和odps的关系是什么啊，我第一次做这个，有点不懂

970

1

0

大数据中maxcompute跟emr的区别是什么呢？

774

1

0

云原生大数据计算服务 MaxCompute里，运维中最重要的模块是谁？

865

1

0

云原生大数据计算服务 MaxCompute中，DataWorks开发流程是怎样的？

1000

1

0

云原生大数据计算服务 MaxCompute中，使用DataWorks进行作业调度会带来什么好处？

890

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关产品

云原生大数据计算服务 MaxCompute

文档详情产品详情

热门讨论

热门文章

大数据计算MaxCompute ODPS-0010000:System internal这个怎么办？

MaxCompute中执行SQL报错ODPS-0130071

Maxcompute中如何处理ODPS-0130071:Semantic analysis exce

大数据计算MaxComputesr, adb指的啥？

Maxcompute中如何处理the number of input partition colum

sparksql中cte物化方式是怎样的

遇到Maxcompute中出现下面问题怎么办

大数据计算MaxCompute可以修改字段类型吗？

MaxCompute sql任务报错ODPS-0130161

大数据计算MaxCompute配置参数在开发环境进行调度，参数解析不出来，这是需要额外做什么配置吗？

展开全部

美柚：最懂女性App背后的混合云架构与大数据服务

空格App亿元A轮融资背后：云上多场景技术架构实践与经验

优酷背后的大数据秘密

Python+大数据计算平台，PyODPS架构手把手教你搭建

［ETL实践指南］基于Kettle的MaxCompute插件实现数据上云

MaxCompute上如何处理非结构化数据

数据库工程师快速上手MaxCompute进行ETL

日交易笔百万级，Ping++的大数据平台架构

阿里云 MaxCompute 2020-4 月刊

展开全部

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

229

77

去学习

大数据Spark2020版（知识精讲与实战演练）第三阶段

136

72

去学习

大数据Spark2020版（知识精讲与实战演练）第四阶段

173

20

去学习

2020版大数据实战项目之DMP广告系统（第三阶段）

139

9

去学习

2020版大数据实战项目之DMP广告系统（第五阶段）

70

14

去学习

2020版大数据实战项目之DMP广告系统（第六阶段）

77

14

去学习

相关电子书

更多

Data+AI时代大数据平台应该如何建设 立即下载

大数据AI一体化的解读 立即下载

极氪大数据 Serverless 应用实践 立即下载

相关实验场景

更多