文档备案控制台

开发者社区问答正文

spark.shuffle.memoryFraction参数的含义，以及优化经验？

spark.shuffle.memoryFraction参数的含义，以及优化经验？

展开

收起

茶什i 2019-10-29 14:08:45 2762 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

珍宝珠

1）spark.shuffle.memoryFraction是shuffle调优中重要参数，shuffle从上一个task拉去数据过来，要在Executor进行聚合操作，聚合操作时使用Executor内存的比例由该参数决定，默认是20%
如果聚合时数据超过了该大小，那么就会spill到磁盘，极大降低性能；2）如果Spark作业中的RDD持久化操作较少，shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。此外，如果发现作业由于频繁的gc导致运行缓慢，意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值

2019-10-30 15:09:08

赞同展开评论
不语奈何

精于基础，广于工具，熟于业务。

该参数代表了Executor内存中，分配给shuffle read task进行聚合操作的内存比例。调优的话如果集群很少进行持久化的操作的话，建议调高比例

2019-10-30 15:08:52

赞同展开评论

问答标签：

apache spark优化 apache spark参数

问答地址：

开发者社区 > 云计算 > 问答

相关问答

MRACC-Spark在网络和存储方面做了哪些优化？

198

1

0

dataworks中ODPS Spark 如何在代码中获取调度参数？

441

2

0

dataworks中ODPS Spark 如何获取调度参数？

309

2

0

Dataworks中spark 节点怎么使用流程参数？

400

3

0

在表格存储中官网的spark这样读取OTS能否设置连接OTS的超时参数？

216

1

0

如何通过Spark UI进行任务优化？

244

1

0

Spark提供了哪些主要参数来调整计算存储资源的使用情况？

174

1

0

MRACC-Spark如何利用eRDMA近网络优化插件来提升性能？

216

1

0

MRACC-Spark的SQL引擎优化主要体现在哪些方面？

191

1

0

Spark SQL在MRACC中有哪些特定的优化措施？

189

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

动态变量话术引擎对直播有什么作用？

新手如何进行OSS 图片处理 CDN 加速？

什么年代了，qoder cn还不支持多agent协同一起完成任务

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

还有其他疑问?