备案控制台

开发者社区问答正文

使用persist的场景有哪些？

使用persist的场景有哪些？

展开

收起

芯在这 2021-12-07 16:23:20 270 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

1）某个步骤计算非常耗时，需要进行persist持久化

2）计算链条非常长，重新恢复要算很多步骤，很好使，persist

3）checkpoint所在的rdd要持久化persist，

lazy级别，框架发现有checnkpoint，checkpoint时单独触发一个job，需要重算一遍，checkpoint前

要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。

4）shuffle之后为什么要persist，shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大

5）shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

2021-12-07 16:23:36

赞同展开评论

问答地址：

开发者社区 > 云计算 > 问答

相关问答

Transaction中关于Dirty Reads 的Client1的代码是什么啊？

436

1

0

Transaction中关于Dirty Reads 的Client2的代码是什么啊？

463

1

0

什么是lazyfree-lazy-expire？

360

1

0

什么是slave-lazy-flush？

346

1

0

Automatic Session这种“特征模型化”的特点是什么？

481

1

0

DataFrame的cache和persist的区别具体有哪些啊？

688

1

0

RDD的cache和persist的区别具体有哪些啊？

580

1

0

cache()和persist()的区别是什么？

600

1

0

DataFrame的cache和persist有什么区别？

294

1

0

DataFrame的cache和persist的区别是什么

775

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

lmstudio拉起qwq-32b-q3_k_m.gguf模型报错？

工作中，拥有什么样的“软技能”可以跨越周期、终身成长？

在idea中使用通义灵码插件时，回答结果比较长时会发生中断，导致回答不完整

关于wan2.1显存占用的问题

一键生成讲解视频，AI的理解和生成能力到底有多强？

还有其他疑问?