备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Spark 3.0中的AQE中动态合并shuffle分区什么意思？

Spark 3.0中的AQE中动态合并shuffle分区什么意思？求大佬解答

展开

收起

爱吃鱼的程序员 2020-12-28 11:40:30 1719 0

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

Shuffle分区数量和大小对查询性能很关键。在Spark3.0以前，Shuffle分区是一个固定值，存在着明显的缺点，如果分区过小会导致I/O低效、调度开销和任务启动开销，但是如果分区过大又会带来GC压力和溢写硬盘等问题。另一方面，在Spark3.0之前，整个查询执行过程中使用统一的分区数，而在查询执行的不同阶段，数据规模会发生明显变化，如果保持统一的分区数，则大大降低了效率。基于以上，动态合并Shuffle分区是非常必要的。

2020-12-28 11:59:52

赞同展开评论打赏

问答分类：

分布式计算 Spark 开源大数据平台 E-MapReduce

问答标签：

apache spark分区 apache spark动态 apache spark shuffle apache spark合并 apache spark动态分区

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

使用maxcompute开发ODPS Spark任务，使用spark.sql 无法 rename分区

111

4

0

大数据计算MaxCompute的Maxcompute Spark 任务，开启动态资源调度，怎么报错？

123

3

0

针对Lindorm数据源分区数量少导致Spark执行效率低的问题，有哪些处理策略？

30

1

0

调整Spark读取ODPS离线表分区大小的方法是什么？

22

1

0

DataWorks如何设置环境变量哈，便于spark 运行任务时动态获取？

44

1

0

请教一下，如何通过spark删除大数据计算MaxCompute分区数据啊？

68

3

0

Flink CDC问下hudi的clustering合并小文件是只支持spark吗？

89

1

0

在大数据计算MaxCompute中，我手动或者定时去执行合并是否会影响到我正在运行的spark？

54

4

0

基于yarn，spark任务可以配置动态资源内存和核数，flink呢？

370

1

0

spark写kafka，如何让分区分布均衡呢？

328

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

热门讨论

热门文章

阿里云E-MapReduce notebook 大概什么时候会正式上线？

E-MapReduce和MaxCompute的区别是什么？

E-MapReduce由于某些未知错误、异常或失败，请求处理失败？

E-MapReduce(Elastic MapReduce，EMR) 是什么？

阿里云E-MapReduce这种命令方式，如何配置kerberos相关的参数？

Cosco的优势是什么？

数据湖统一元数据服务需要具备哪些能力和价值？

各位大佬，请教下flink sink到oss按官网上的报找不到endpoint，我要想在idea中运

Spark3 Join Hints是什么？

Ray是什么？

展开全部

阿里封神谈hadoop生态学习之路

现代流式计算的基石：Google DataFlow

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

从数砖开源 Delta Lake 说起

Apache Spark 3.0 将内置支持 GPU 调度

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

展开全部

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

123

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

123

19

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

149

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

201

21

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

343

9

去学习

大数据实时计算框架Spark快速入门

998

93

去学习

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载