备案控制台

开发者社区> 问答> 正文

spark中如何防止shuffle后内存溢出？

spark中如何防止shuffle后内存溢出？

展开

收起

芯在这 2021-12-11 22:32:21 752 0

1 条回答

写回答

取消提交回答

真的很搞笑

shuffle内存溢出的情况可以说都是shuffle后，单个文件过大导致的。在Spark中，join，reduceByKey这一类型的过程，都会有shuffle的过程，在shuffle的使用，需要传入一个partitioner，大部分Spark中的shuffle操作，默认的partitioner都是HashPatitioner，默认值是父RDD中最大的分区数,这个参数通过spark.default.parallelism控制(在spark-sql中用spark.sql.shuffle.partitions) ， spark.default.parallelism参数只对HashPartitioner有效，所以如果是别的Partitioner或者自己实现的Partitioner就不能使用spark.default.parallelism这个参数来控制shuffle的并发量了。如果是别的partitioner导致的shuffle内存溢出，就需要从partitioner的代码增加partitions的数量。

2021-12-11 22:32:39

赞同展开评论打赏

问答分类：

分布式计算 Spark

问答标签：

spark内存 apache spark内存 apache spark shuffle apache spark防止内存溢出 apache spark内存溢出

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

ADB-中Spark资源规格列表上面只列了内核和内存大小，请问硬盘大概有多大呢？我看 small

369

1

0

基于yarn，spark任务可以配置动态资源内存和核数，flink呢？

370

1

0

如何计算spark中的数据集，在加入内存中的大小

613

0

0

请教个问题，Spark on MaxCompute是基于内存的吗？会不会比直接用odps sql写要

740

1

0

spark executor容器内存如何规划？

614

0

0

hadoop和spark的shuffle相同和差异具体有哪些啊？

677

1

0

Spark早期的shuffle过程存在那些问题？

2246

1

0

MaxCompute Spark中Executor 内存不足的原因及解决方案是什么？

787

1

0

Spark 当中的 shuffle 过程应该如何去理解呢？

658

1

0

spark的shuffle过程是怎么样的？

524

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818792

2 据说在家办公的程序员是这样写代码的？ 1792833

3 阿里云开放端口权限 690146

4 如何升级配置 536218

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522702

6 【精品问答】python技术1000问(1) 514093

7 Flink Forward Asia 2021 有奖问答 512876

8 OceanBase 使用动画（持续更新） 359342

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329777

10 OSS存储服务-客户端工具 321496

11 为体验实验室取一个新名字。 307427

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304018

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295287

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284085

15 安全组详解，新手必看教程 277318

16 写code还是做管理，开发者如何进行职业规划？ 268944

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255866

18 阿里云手机和阿云浏览器连接问题专帖 235673

19 请问阿里云邮箱如何开启SMTP服务啊！ 225797

20 一个备案号，如何备案多个域名？ 223615

1 slb带宽限制是多少 575

2 P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧 437

3 【云端读书会第1期】读《10分钟打造专属AI助手》，你有哪些心得？ 687

4 我在云栖做动手，一起参与吗？ 1559

5 99元云服务器，你最pick哪种新玩法？ 3703

6 打开游戏报错 A D3D11-compatible GPU (Feature Level 11.0， 139

7 请问钉钉知识库里，如何批量下载文件夹里面的文件 432

8 open webui的RAG功能根本用不起来 186

9 全天候24小时无所不知AI助手是如何炼成的？ 1788

10 阿里云百炼的data = json.loads(json_string)是什么意思呀？ 678

11 modelscope-funasr的FunClip怎么安装的？ 685

12 Rabbit MQ 和 Rocket MQ 两者之间有什么区别？ 298

13 RocketMQ cve-2024-23321 漏洞 310

14 最新版本的rocketmq是5.3.0，但是grpc版本的java客户端之间的对应关系是怎么样的？ 131

15 在钉钉中不打开钉钉的情况下可以提醒打上下班卡吗？ 287

16 在钉钉中创建OA审批，上传附件如何操作的？ 302

17 在钉钉中自定义机器人发送消息返回，这个限流是企业级别的还是机器人的？ 692

18 在钉钉中管理员如何查看审批流程中所有正在审批未结束的流程？ 195

19 部署了Nacos2.4.0，开启鉴权，用管理员账号，修密码，就报401错误，啥原因呀？ 651

20 想在宜搭做一个数据分析应用，从硬件获取数据 320

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

402

33

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

123

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

123

19

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

201

21

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

343

9

去学习

大数据实时计算框架Spark快速入门

998

93

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

EXTENDING SPARK WITH JAVA AGENTS 立即下载

Spark Streaming At Bing Scale 立即下载

云服务器ECS内存增强型实例re6全新发布 立即下载