开发者社区大数据文章正文

Spark cache()与unpersist()使用位置

2024-09-12 62

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark在执行过程中是懒加载模式，RDD转换仅仅是构建DAG描述而不执行，只有遇到action算子才会真正的运行

目前有两种情况：
A

val rdd1 = sc.textFile("...")
rdd1.cache()   // rdd1缓存
val rdd2 = rdd1.filter(...)
val rdd3 = rdd1.map(...)
rdd2.cache()
rdd3.cache()
rdd1.unpersist()

B

val rdd1 = sc.textFile("...")
rdd1.cache()   // rdd1缓存
val rdd2 = rdd1.filter(...)
val rdd3 = rdd1.map(...)
rdd2.cache()
rdd3.cache()
rdd2.saveAsTextFile("...")
rdd3.saveAsTextFile("...")
rdd1.unpersist()

由于Spark在执行过程中是懒加载模式，RDD转换仅仅是构建DAG描述而不执行，只有遇到action算子才会真正的运行。因此在选项A中，调用cache后，对算子进行转换操作，再调用unpersist时，仍然只有作业描述，而没有正在运行的执行。

我们在实际开发中应该选择B写法。在action算子之前调用cache进行缓存rdd,在action执行完成后才真正的调用unpersist释放缓存。

备注：cache 和 persist调用只是将RDD添加到在作业执行期间标记为持久化的RDD的Map中。但是，unpersist直接告诉blockManger从存储中释放RDD并且删除持久化RDD Map中的引用。

文章标签：

分布式计算

Spark

缓存

存储

关键词：

apache spark cache

Z_sorrain

目录

相关文章

敏叔V587

|

8月前

|

SQL 分布式计算 Spark

Spark3.x的Cache能不能让我在2022好好睡觉

Spark3.x的Cache能不能让我在2022好好睡觉

敏叔V587

49 0 0

开源大数据EMR

|

分布式计算 Spark 存储

Spark Relational Cache实现亚秒级响应的交互式分析

阿里云E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家王道远为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

开源大数据EMR

2621 0 0

Spark Relational Cache实现亚秒级响应的交互式分析

健身不健身

|

缓存分布式计算云栖大会

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

本文来自2019杭州云栖大会大数据生态专场中的分享《Spark Relational Cache实现亚秒级响应的交互式分析》

健身不健身

2582 0 0

2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析

开源大数据EMR

|

SQL 存储缓存

EMR Spark Relational Cache的执行计划重写

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

开源大数据EMR

9089 0 1

阿里云E-MapReduce团队

|

存储分布式计算调度

EMR Spark Relational Cache 利用数据预组织加速查询

本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术，我们可以快速过滤数据，大大减少实际发生的IO数据量，避免IO瓶颈的出现，从而优化整体查询性能。

阿里云E-MapReduce团队

1302 0 0

健身不健身

|

分布式计算 Spark 存储

EMR Spark Relational Cache 利用数据预组织加速查询

在利用Relational Cache进行查询优化时，我们需要通过预计算，存储大量数据。而在查询时，我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应，这就涉及到优化从大量数据中快速定位所需数据的场景。

健身不健身

1815 0 0

阿里云E-MapReduce团队

|

SQL 分布式计算 Apache

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式，从而在加速用户查询的同时，减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。

阿里云E-MapReduce团队

5832 0 0

司麟嘟嘟嘟

|

SQL 分布式计算 Spark

EMR Spark Relational Cache如何支持雪花模型中的关联匹配

在Spark中，Join通常是代价比较大，尤其是shuffle join。Relational Cache将反范式化表（即关联后的大表）保存为relational cache，便可以使用cache重写执行计划，提高查询效率。

司麟嘟嘟嘟

4594 0 0

开源大数据EMR

|

SQL 分布式计算 Spark

钉钉群直播【Spark Relational Cache 原理和实践】

主要介绍Relational Cache/物化视图的历史和背景，以及EMR Spark基于Relational Cache加速Spark查询的技术方案，及如何通过基于Relational Cache的数据预计算和预组织，使用Spark支持亚秒级响应的交互式分析使用场景。

开源大数据EMR

8971 0 0

健身不健身

|

SQL 存储缓存

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

健身不健身

3298 0 0

热门文章

最新文章

Spark Operator浅析

Spark-spark streaming

Spark PruneDependency 依赖关系 RangePartitioner

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题

利用闪存优化在Cosco基础上的Spark Shuffle

【大数据架构】Apache Flink和Apache Spark—比较指南

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

Spark Shell入门教程（上）

Spark Stage切分源码剖析——DAGScheduler

spark用于分析数据并将数据保存到数据库中是

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

如何解决Spark在深度学习中的资源消耗问题？

Spark在深度学习中的优缺点是什么？

使用Spark进行机器学习

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【Spark】Spark基础教程知识点

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置，报错如何解决

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

手把手教你白嫖阿里云服务器(免费领服务器)