备案控制台

开发者社区> 问答> 正文

spark中如何防止driver端的内存溢出？

spark中如何防止driver端的内存溢出？

展开

收起

芯在这 2021-12-11 22:30:56 1130 0

1 条回答

写回答

取消提交回答

真的很搞笑

可以增大driver的内存参数：spark.driver.memory (default 1g)

这个参数用来设置Driver的内存。在Spark程序中，SparkContext，DAGScheduler都是运行在Driver端的。对应rdd的Stage切分也是在Driver端运行，如果用户自己写的程序有过多的步骤，切分出过多的Stage，这部分信息消耗的是Driver的内存，这个时候就需要调大Driver的内存。

map过程产生大量对象导致内存溢出

这种溢出的原因是在单个map中产生了大量的对象导致的，例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartition方法，分区成更小的块传入map。例如：rdd.repartition(10000).map(x=>for(i <- 1 to 10000) yield i.toString)。

面对这种问题注意，不能使用rdd.coalesce方法，这个方法只能减少分区，不能增加分区，不会有shuffle的过程。

2021-12-11 22:31:18

赞同展开评论打赏

问答分类：

分布式计算 Spark

问答标签：

apache spark driver spark内存 apache spark内存 apache spark防止内存溢出 apache spark内存溢出

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

ADB-中Spark资源规格列表上面只列了内核和内存大小，请问硬盘大概有多大呢？我看 small

357

1

0

基于yarn，spark任务可以配置动态资源内存和核数，flink呢？

361

1

0

如何计算spark中的数据集，在加入内存中的大小

589

0

0

Spark架构中的Driver Program有什么用吗？

488

1

0

spark 在 yarn cluster 模式下的 driver 节点，是不是也没有这个 Java

607

0

0

请教个问题，Spark on MaxCompute是基于内存的吗？会不会比直接用odps sql写要

732

1

0

各位，我用spark在driver广播一个string，然后在executor端用.value把广播

303

1

0

spark executor容器内存如何规划？

605

0

0

MaxCompute Spark中Driver Memory的原因及解决方案是什么？

984

1

0

MaxCompute Spark中Driver Memory的表现形式是什么？

395

1

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699937

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818346

3 据说在家办公的程序员是这样写代码的？ 1792383

4 阿里云开放端口权限 689943

5 如何升级配置 536078

6 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522482

7 【精品问答】python技术1000问(1) 514011

8 Flink Forward Asia 2021 有奖问答 512815

9 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456927

10 OceanBase 使用动画（持续更新） 359278

11 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329727

12 OSS存储服务-客户端工具 321356

13 为体验实验室取一个新名字。 307339

14 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303878

15 Win Server 2003-2016 加密勒索事件必打补丁合集 295174

16 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283674

17 安全组详解，新手必看教程 277266

18 写code还是做管理，开发者如何进行职业规划？ 268501

19 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255834

20 阿里云手机和阿云浏览器连接问题专帖 235636

1 丹青-千变万换，体验图片局部内容替换，分享使用过程、输出结果及使用体验 338

2 使用PAI-EAS一键部署ChatGLM，并应用LangChain集成外部数据 255

3 使用通义灵码冲刺备战求职季，你有哪些深刻体验？ 409

4 分享出你的「松弛感工作」必备AI技能，并展示使用效果 115

5 通用大模型VS垂直大模型，你倾向于哪一方？ 329

6 如何破除工作中的“路径依赖”？ 319

7 一键生成你眼中的未来城市，分享部署过程、输出结果及使用体验 931

8 展示你用AI工具生成动漫头像，并分享配置过程及使用体验 634

9 ModelScope有部署qwen2-72b的么，正常推理需要多大的显存？ 159

10 国内AI大模型高考数学成绩超GPT-4o，如何看待这一结果？ 775

11 如何避免“写代码5分钟，调试2小时”的尴尬？ 912

12 通义灵码生成Git Commit的时候，偶尔生成中文，偶尔生成英文，根本无法控制生成的语言。 260

13 通义灵码登录失败，提示通义灵码域名无法解析 155

14 一键部署3D卡通风格模型，分享部署过程及使用体验 697

15 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 1291

16 宜搭自定义页面表格组件如何更好的适配于移动端 100

17 机器学习PAI现在一直在重试，怎样停掉？ 280

18 请问机器学习PAI eas服务拉取dockerhub失败怎么办？ 230

19 机器学习PAI dlc一直卡在预分配怎么解决？没有日志吗？ 149

20 请教下机器学习PAI的代码配置没有链接测试吗？ 169

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

382

33

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

276

28

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

119

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

146

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

198

21

去学习

大数据实时计算框架Spark快速入门

959

93

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Apache Spark: Cloud and On-Prem 立即下载

Hybrid Cloud and Apache Spark 立即下载

云服务器ECS内存增强型实例re6全新发布 立即下载