【赵渝强老师】Spark RDD的缓存机制-阿里云开发者社区

【赵渝强老师】Spark RDD的缓存机制

2025-02-19 45

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： Spark RDD通过`persist`或`cache`方法可将计算结果缓存，但并非立即生效，而是在触发action时才缓存到内存中供重用。`cache`方法实际调用了`persist(StorageLevel.MEMORY_ONLY)`。RDD缓存可能因内存不足被删除，建议结合检查点机制保证容错。示例中，读取大文件并多次调用`count`，使用缓存后执行效率显著提升，最后一次计算仅耗时98ms。

Spark RDD通过persist方法或cache方法可以将计算结果的缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD才会被缓存在计算节点的内存中并供后面重用。下面是persist方法或cache方法的函数定义：

def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)
def cache(): this.type = persist()

视频讲解如下：

通过函数的定义发现，cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark在object StorageLevel中定义了缓存的存储级别。下面是在StorageLevel中的定义的缓存级别。

val NONE = new StorageLevel(false, false, false, false)
val DISK_ONLY = new StorageLevel(true, false, false, false)
val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
val MEMORY_ONLY = new StorageLevel(false, true, false, true)
val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
val MEMORY_AND_DISK_SER_2=new StorageLevel(true, true, false, false, 2)
val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

需要说明的是，使用RDD的缓存机制，数据可能丢失；或者会由于内存的不足而造成数据被删除。可以通过使用RDD的检查点机制了保证缓存的容错，即使缓存丢失了也能保证计算的正确执行。

下面是使用RDD缓存机制的一个示例。这里使用RDD读取一个大的文件，该文件中包含918843条记录。通过Spark Web Console可以对比出在不使用缓存和使用缓存时，执行效率的差别。

（1）读取一个大文件。

scala> val rdd1 = sc.textFile("/root/temp/sales")

（2）触发一个计算，这里没有使用缓存。

scala> srdd1.count

（3）调用cache方法标识该RDD可以被缓存。

scala> rdd1.cache

（4）第二次触发计算，计算完成后会将结果缓存。

scala> rdd1.count

（5）第三次触发计算，这里会直接从之前的缓存中获取结果。

scala> rdd1.count

（6）访问Spark的Web Console观察这三次count计算的执行时间，可以看成最后一次count计算只耗费了98ms，如下图所示。

【赵渝强老师】Spark RDD的缓存机制

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景