开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:深入 rdd 定义_什么叫做弹性分布式数据集】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/11963
深入 rdd 定义_什么叫做弹性分布式数据集
内容介绍:
一、对应关系
二、分布式
三、弹性
四、数据集
一、对应关系
弹性分布式数据集是三个词语,第一个词语弹性,弹性的英文开头是r,也对应 rdd 的第一个r字母。即为弹性。第二个单词叫做分布式,是 rdd 的第一个 d 字母。第三个单词就是数据集,也对应 rdd 的第二个 d 字母。
二、分布式
Rdd 支持分区,是可以运行在集群中。
三、弹性
对于弹性的定义,并不是那么精准,可以表达出好几层意思,首先第一层意思是可以支持高效容错,第二种是数据不仅可以缓存在内存中,也可以缓存在磁盘中,也可以缓存在外部存储中。以上三种,都可以称为 rdd 的弹性所在。
四、数据集
Rdd 可以不保存数据,只保留自己的必备信息,如依赖关系和计算函数。Rdd 也可以进行缓存,相当于存储具体数据。并且 rdd 不仅是数据集,也是一种编程模型,所以 rdd 称为弹性分布式数据集。