文档备案控制台

开发者社区问答正文

spark中如何防止standalone模式下资源分配不均匀导致内存溢出？

spark中如何防止standalone模式下资源分配不均匀导致内存溢出？

展开

收起

芯在这 2021-12-11 22:32:59 490 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

在standalone的模式下如果配置了–total-executor-cores 和 –executor-memory 这两个参数，但是没有配置–executor-cores这个参数的话，就有可能导致，每个Executor的memory是一样的，但是cores的数量不同，那么在cores数量多的Executor中，由于能够同时执行多个Task，就容易导致内存溢出的情况。这种情况的解决方法就是同时配置–executor-cores或者spark.executor.cores参数，确保Executor资源分配均匀。

使用rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)代替rdd.cache() rdd.cache()和rdd.persist(Storage.MEMORY_ONLY)是等价的，在内存不足的时候rdd.cache()的数据会丢失，再次使用的时候会重算，而rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)在内存不足的时候会存储在磁盘，避免重算，只是消耗点IO时间。

2021-12-11 22:33:22

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark Standalone apache spark模式模式内存 apache spark资源模式分配内存

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark如何引用依赖的文件/资源

173

1

0

阿里云服务器公共镜像选哪个系统省内存资源？

273

1

0

PolarDB提出了什么架构来解决CPU、内存和存储资源的问题？

281

1

0

中小型Java应用一般需要配置多大内存的服务器资源？

1190

1

0

flink cdc同步数据的资源，比如内存，cpu这些有什么参考依据吗？

435

11

0

RDS MySQL 本地盘实例升级CPU与内存时，本地资源可用是指什么？

248

0

0

容器对CPU和内存的资源请求和限制分别是多少？

298

2

0

Spark提供了哪些主要参数来调整计算存储资源的使用情况？

167

1

0

在client模式下，如果spark job的jar包过大，可能会导致什么问题？如何解决？

267

1

0

Spark的RDD和DataFrame编程模式如何帮助提升核算效率？

186

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

需要支持自定义Kimi k3 API

WordPress站点怎么进行速度优化？

阿里云CDN如何加速配置？

建立的网站被DDoS攻击怎么排查？

电脑下载有https证书问题，浏览器有时加载不出网页显示ERR_SSL_VERSION_OR_CIP

相关文章

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

【赵渝强老师】Hadoop HDFS的回收站和快照

阿里云服务器实例选择指南：经济型、通用型、计算型、内存型性能解析与场景解析

AutoMQ x 阿里云 OSS Tables：基于 Iceberg 构建流表一体的实时入湖

阿里云数据总线DataHub深度对接实战指南：从入门到生产级管道构建

还有其他疑问?