备案控制台

开发者社区华章出版社文章正文

《Spark与Hadoop大数据分析》一一3.5　持久化与缓存

2017-07-03 1302

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.5节,作者：文卡特·安卡姆（Venkat Ankam）更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.5　持久化与缓存

Spark 的一个独特功能是在内存中持久化 RDD。你可以使用 persist 或 cache 变换来持久化 RDD，如下所示：

上述两个语句都是相同的，并且会在 MEMORY_ONLY 存储级别缓存数据。它们的区别在于：cache 是指 MEMORY_ONLY 存储级别，而 persist 可以根据需要选择不同的存储级别，如下表所示。当第一次使用动作来进行计算时，它将保存在节点上的内存中。了解缓存 RDD 的百分比及其大小的最简单方法是检查管理界面中的 Storage 选项卡，如图3-11 所示：

图3-11　缓存的 RDD：缓存的百分比和大小
3.5.1　存储级别
根据应用需求的需要，RDD 可以用不同的存储级别来存储。下表显示了 Spark 的存储级别及其含义。

3.5.2　应该选择哪个存储级别
Spark 的各个存储级别在内存占用和 CPU 效率之间提供不同的权衡。你可以按照下面的过程选择其中一个：
如果整个 RDD 能放进内存中，请选择 MEMORY_ONLY。
使用 MEMORY_ONLY_SER 以获得更好的紧凑性和更好的性能。这对 Python 并不重要，因为它的对象总是会用 pickle 库序列化。
如果重新计算比从磁盘读取的开销更大，请使用 MEMORY_AND_DISK。
不要复制 RDD 存储，除非你需要快速的故障恢复。

文章标签：

存储

分布式计算

缓存

Spark

Hadoop

关键词：

缓存持久化

hadoop spark

apache spark持久化

持久化缓存

spark缓存

华章计算机

目录

相关文章

武子康

|

2月前

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

192 6 6

武子康

|

2月前

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

83 2 2

土木林森

|

1月前

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

115 2 2

武子康

|

2月前

|

存储缓存 NoSQL

大数据-45 Redis 持久化概念 RDB AOF机制持久化原因和对比

大数据-45 Redis 持久化概念 RDB AOF机制持久化原因和对比

武子康

53 2 2

大数据-45 Redis 持久化概念 RDB AOF机制持久化原因和对比

土木林森

|

1月前

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用，通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理，确保高可靠性和容错性；Spark则凭借其高性能和丰富的API，进行深度分析和机器学习，实现高效的批处理和实时处理。

土木林森

84 1 1

aliyun4381607004

|

1月前

|

分布式计算 Java 开发工具

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景，随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码，发现使用的`nativeBooster.saveModel`方法不支持OSS路径，而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令，帮助用户顺利迁移模型存储路径。

aliyun4381607004

82 1 1

武子康

|

2月前

|

存储缓存分布式计算

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

武子康

49 4 4

武子康

|

2月前

|

消息中间件分布式计算 NoSQL

大数据-41 Redis 类型集合(2) bitmap位操作 geohash空间计算 stream持久化消息队列 Z阶曲线 Base32编码

大数据-41 Redis 类型集合(2) bitmap位操作 geohash空间计算 stream持久化消息队列 Z阶曲线 Base32编码

武子康

29 2 2

武子康

|

2月前

|

存储缓存 NoSQL

大数据-46 Redis 持久化 RDB AOF 配置参数混合模式具体原理触发方式优点与缺点

大数据-46 Redis 持久化 RDB AOF 配置参数混合模式具体原理触发方式优点与缺点

武子康

72 1 1

华章计算机

|

物联网大数据程序员

《Spark与Hadoop大数据分析》——导读

华章计算机

1235 0 0

华章出版社

热门文章

最新文章

丰富、连接、待集成—MaxCompute 生态再出发

日交易笔百万级，Ping++的大数据平台架构

业内首次融合数据仓库与数据湖阿里云推出下一代大数据平台 “湖仓一体”

用好阿里云分析型数据库大存储实例，大幅降低大数据应用成本

大数据基础习题

大数据也有问题：数据量增加远超摩尔定律需要“智能遗忘”

大数据提升企业竞争力

“领投鸟”受邀出席金融科技与大数据应用发展高峰论坛

深处数据时代：大数据的这些误区你躺枪了哪个

国家大数据创新联盟成立

中间件Write-Through Cache（直写缓存）策略

中间件Read-Through Cache（直读缓存）策略

中间件Cache-Aside（旁路缓存）策略中间件Cache-Aside（旁路缓存）策略

【后端面经】【缓存】33｜缓存模式：缓存模式能不能解决缓存一致性问题？-03 Refresh Ahead + SingleFlight + 删除缓存 + 延迟双删

【后端面经】【缓存】33｜缓存模式：缓存模式能不能解决缓存一致性问题？-02 Write Through + Write Back

Redis经典问题：缓存击穿

中间件缓存一致性

中间件缓存失效策略

中间件缓存策略类型

缓存处理的主要步骤

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

大数据实时计算框架Spark快速入门

相关电子书

更多

Python第四讲——使用IPython/Jupyter Notebook与日志服务玩转超大规模数据分析与可视化

互联网下半场的角逐，玩转轻资产的大数据服务—图（关系网络）数据分析与阿里应用

如何使用大数据计算服务 MaxCompute进行数据分析

相关实验场景

更多

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

倚天大数据电商数据分析快速实践

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

使用内置公开数据集快速体验MaxCompute

下一篇

DataWorks售前咨询