备案控制台

开发者社区问答正文

spark - 持续存在两次RDD过程

我制作了一个RDD并从原点创建了另一个RDD，如下所示。

val RDD2 = RDD1.map({
println("RDD1")
....
}).persist(StorageLevel.MEMORY_AND_DISK)

RDD2.foreach({
println("RDD2")
...
})
...so on..
我期望RDD1的进程只进行一次，因为RDD1通过persist方法保存在内存或磁盘上。

但不知何故，“RDD1”打印在“RDD2”之后，如下所示。

RDD1
RDD1
RDD1
RDD1
RDD2
RDD2
RDD2
RDD2
RDD2
RDD1 -- repeat RDD1 process. WHY?
RDD1
RDD1
RDD1
RDD2
RDD2
RDD2
RDD2
RDD2

展开

收起

社区小助手 2018-12-12 10:59:09 2748 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

这是Spark的预期行为。即使您为第一个RDD添加持久性，spark也不会缓存数据，除非您在持久操作之后添加任何操作。map操作不是spark中的动作。
强制执行缓存的方法是count在持久化之后添加操作RDD2
val RDD2 = RDD1.map({
println("RDD1")
....
}).persist(StorageLevel.MEMORY_AND_DISK)
RDD2.count // Forces the caching
现在，如果您执行任何其他操作，则不会重新计算RDD2

2019-07-17 23:20:01

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark rdd apache spark过程

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Spark的RDD和DataFrame编程模式如何帮助提升核算效率？

92

1

0

spark 执行RDD操作中的Lazy Calculate有什么好处吗？

2418

1

0

spark 执行RDD操作的过程要注意什么吗？

2388

1

0

spark 中的RDD 有什么特点吗？

2381

1

0

Spark中对于key-value的RDD有什么特别的嘛？

507

1

0

批处理系统中计算过程中可以通过计算的什么来保证数据的一致性（如 Spark 中的 RDD 血缘）？

713

1

0

Spark Master的选举过程是什么？

627

0

0

Spark RDD是具体怎么容错的，基本原理是什么？

4758

1

0

Spark早期的shuffle过程存在那些问题？

2294

1

0

spark当中RDD 如何通过记录更新的方式容错？

936

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

阿里云全球加速GA是什么？怎么使用？

钉钉小程序开发获取code失败

阿里云OSS包年包月还另外收费吗？对象存储

阿里云 CEN 如何与 VPC 互联配置?

相关文章

阿里云携手 MiniMax 构建云原生数仓最佳实践：大模型时代的 Data + AI 数据处理平台

Dataphin功能Tips系列（80）每日新增表高效同步！脚本模式+参数化配置助你轻松搞定动态数据同步

阿里云通用算力型u2i与经济型e实例性能、适用场景区别及选择参考

AI战略丨大模型应用元年，让智能真正转变为生产力

主流ChatBi产品推荐，一文看懂分析agent产品选型

还有其他疑问?