文档备案控制台

开发者社区问答正文

Spark为什么要持久化，一般什么场景下要进行persist操作？为什么要进行持久化？

Spark为什么要持久化，一般什么场景下要进行persist操作？为什么要进行持久化？

展开

收起

茶什i 2019-10-28 16:17:18 3371 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

spark所有复杂一点的算法都会有persist身影,spark默认数据放在内存，spark很多内容都是放在内存的，非常适合高速迭代，1000个步骤只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd出错或者分片可以根据血统算出来，如果没有对父rdd进行persist 或者cache的化，就需要重头做。以下场景会使用persist 1）某个步骤计算非常耗时，需要进行persist持久化 2）计算链条非常长，重新恢复要算很多步骤，很好使，persist 3）checkpoint所在的rdd要持久化persist， lazy级别，框架发现有checnkpoint，checkpoint时单独触发一个job，需要重算一遍，checkpoint前要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。 4）shuffle之后为什么要persist，shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大 5）shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

2019-10-28 16:33:58

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark场景 apache spark持久化 apache spark操作 apache spark持久化persist apache spark persist

问答地址：

开发者社区 > 大数据 > 问答

相关问答

在供应链核算场景下，为什么需要设计专门的Spark任务管理模块？

88

1

0

DataWorks最近有新增spark SQL相关支持，是需要重新初始化吗？有相关的操作文档吗？

109

1

0

大数据计算MaxCompute在spark程序里面操作表数据，应该一次查询多少条 ?

111

1

0

DataWorks中spark操作odps，写入时报的错，哪位给看看什么原因引起的？

295

2

0

我根据操作maxcompute spark 在idea调试，不能正常执行，这个是什么情况呢？

217

1

0

你觉得Hadoop和Spark的技术优缺点以及适用场景都有哪些？

830

1

0

DataWorks里，odps spark支持操作redis吗，如何操作？

306

2

0

RDS什么场景用presto呢?如果presto很高效，hive，spark对比优劣

644

1

0

DataWorks怎么操作ODPS Spark节点？

318

1

0

spark 执行RDD操作中的Lazy Calculate有什么好处吗？

2430

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

notebook启动安全验证一直失败

vllm部署模型，参数如何指定

怎么在cursor上使用mcp来采集网页数据，听说brightdata-mcp适合做爬虫，好用吗？

请教一下，我4张a6000可以部署什么好点的模型

宜搭如何将流程表单的子表单中选择的人员，加入审批流程？

相关文章

21,000张SIM卡背后的“短信工厂”：印度CBI突袭国家级钓鱼基础设施

MaxCompute SQL AI 实操：业务员外呼备注有效性判断

MaxCompute SQL AI 实操

从工单、文档到结构化知识库：一套可复用的 Agent 知识采集方案

AMD服务器上一个诡异的性能问题诊断历程

还有其他疑问?