文档备案控制台

开发者社区问答正文

控制Spark reduce缓存如何调优shuffle？

控制Spark reduce缓存如何调优shuffle？

展开

收起

芯在这 2021-12-10 00:24:29 512 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

spark.reducer.maxSizeInFilght 此参数为reduce task能够拉取多少数据量的一个参数默认48MB，当集群资源足够时，增大此参数可减少reduce拉取数据量的次数，从而达到优化shuffle的效果，一般调大为96MB,资源够大可继续往上跳。

spark.shuffle.file.buffer 此参数为每个shuffle文件输出流的内存缓冲区大小，调大此参数可以减少在创建shuffle文件时进行磁盘搜索和系统调用的次数，默认参数为32k 一般调大为64k。

2021-12-10 00:24:43

赞同展开评论

问答分类：

缓存分布式计算 Spark

问答标签：

spark缓存 apache spark缓存 apache spark shuffle 缓存调优 apache spark调优

问答地址：

开发者社区 > 大数据 > 问答

相关问答

hadoop和spark的shuffle相同和差异具体有哪些啊？

839

1

0

Spark早期的shuffle过程存在那些问题？

2364

1

0

MaxCompute Spark中Driver Cores资源参数如何调优？

1319

1

0

MaxCompute Spark中Executor Memory资源参数如何调优？

1016

1

0

MaxCompute Spark中Executor Num资源参数如何调优？

901

1

0

MaxCompute Spark中Executor Cores资源参数如何调优？

835

1

0

Spark 当中的 shuffle 过程应该如何去理解呢？

786

1

0

spark中如何防止shuffle后内存溢出？

962

1

0

Spark如何访问OSS透明缓存加速？

808

1

0

Spark RDD中的reduce(func)方法的作用是什么？

620

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

qoder CN,wiki收费为什么没有提示,以前qoder国际版不是免费的吗,一次跑了几百Cred

阿里云服务器官网在哪？有几种云服务器类型？

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

阿里云服务器问题解答，你关心的问题都在这！

阿里云 ECS 公网 IP有什么更换技巧？

相关文章

Xiuno BBS 审计之问题10：后台 phpinfo() 暴露完整服务器环境信息

KubeVirt 镜像制作

AI Agent 凭证治理实践：从长期 API Key 到临时授权

成本直降50%！GPT-5.6 Terra与GPT-5.5跑分、延迟、稳定性深度实测

中小企业低成本搭建合规企业官网：阿里云轻量化建站架构全流程解析

还有其他疑问?