深入 rdd 定义_什么叫做弹性分布式数据集 | 学习笔记

简介: 快速学习 深入 rdd 定义_什么叫做弹性分布式数据集

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段深入 rdd 定义_什么叫做弹性分布式数据集】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11963


深入 rdd 定义_什么叫做弹性分布式数据集


内容介绍:

一、对应关系

二、分布式

三、弹性

四、数据集

 

一、对应关系

弹性分布式数据集是三个词语,第一个词语弹性,弹性的英文开头是r,也对应 rdd 的第一个r字母。即为弹性。第二个单词叫做分布式,是 rdd 的第一个 d 字母。第三个单词就是数据集,也对应 rdd 的第二个 d 字母。

 

二、分布式

Rdd 支持分区,是可以运行在集群中。

 

三、弹性

对于弹性的定义,并不是那么精准,可以表达出好几层意思,首先第一层意思是可以支持高效容错,第二种是数据不仅可以缓存在内存中,也可以缓存在磁盘中,也可以缓存在外部存储中。以上三种,都可以称为 rdd 的弹性所在。

 

四、数据集

Rdd 可以不保存数据,只保留自己的必备信息,如依赖关系和计算函数。Rdd 也可以进行缓存,相当于存储具体数据。并且 rdd 不仅是数据集,也是一种编程模型,所以 rdd 称为弹性分布式数据集。

相关文章
|
7月前
|
SpringCloudAlibaba Java 网络架构
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(二)Rest微服务工程搭建
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(二)Rest微服务工程搭建
176 0
|
4月前
|
存储 分布式计算 数据处理
解释弹性分布式数据集(RDD)的概念
【8月更文挑战第13天】
204 4
|
4月前
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
107 0
|
7月前
|
SpringCloudAlibaba Java 网络架构
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
301 0
|
4月前
|
监控 Java
分布式链路监控系统问题之Span在OpenTracing规范中的定义是什么
分布式链路监控系统问题之Span在OpenTracing规范中的定义是什么
|
7月前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
189 1
|
7月前
|
SpringCloudAlibaba Java 测试技术
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(六)Hystrix(豪猪哥)的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(六)Hystrix(豪猪哥)的使用
162 1
|
7月前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(三)Eureka服务注册中心
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(三)Eureka服务注册中心
109 1
|
7月前
|
SpringCloudAlibaba Java 持续交付
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(一)基础知识+各个组件介绍+聚合父工程创建
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(一)基础知识+各个组件介绍+聚合父工程创建
785 1
|
7月前
|
机器学习/深度学习 负载均衡 PyTorch
PyTorch分布式训练:加速大规模数据集的处理
【4月更文挑战第18天】PyTorch分布式训练加速大规模数据集处理,通过数据并行和模型并行提升训练效率。`torch.distributed`提供底层IPC与同步,适合定制化需求;`DistributedDataParallel`则简化并行过程。实际应用注意数据划分、通信开销、负载均衡及错误处理。借助PyTorch分布式工具,可高效应对深度学习的计算挑战,未来潜力无限。
下一篇
DataWorks