【云计算与大数据技术】Spark的解析（图文解释超详细必看）-阿里云开发者社区

【云计算与大数据技术】Spark的解析（图文解释超详细必看）

2023-12-19 396

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

全局流量管理 GTM，标准版 1个月

云解析 DNS，旗舰版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

简介： 【云计算与大数据技术】Spark的解析（图文解释超详细必看）

一、Spark RDD

Spark是一个高性能的内存分布式计算框架，具备可扩展性，任务容错等特性，每个Spark应用都是由一个driver program 构成，该程序运行用户的 main函数。

Spark提供的一个主要抽象就是 RDD(Resilient Distributed Datasets),这是一个分布在集群中多节点上的数据集合，利用内存和磁盘作为存储介质。其中内存为主要数据存储对象，支持对该数据集合的并发操作，用户可以使用HDFS中的一个文件来创建一个RDD，可以控制RDD存放于内存中还是存储与磁盘。

RDD的设计目标是针对迭代式机器学习，每个RDD是只读的、不可更改的

创建RDD

有两种方式创建一个 RDD

在driver program 中并行化一个当前的数据集合

利用一个外部存储系统中的数据集合创建

二、Spark与MapReduce对比

Spark 作为新一代的大数据计算框架，针对的是迭代式计算、实时数据处理，要求处理的时间更少，与MapReduce对比整体反映如下

1：在中间计算结果方面 - Spark基本把数据存放在内存中,只有在内存资源不够的时候才写到磁盘等存储介质中; 而 MapReduce计算过程中 Map任务产生的计算结果存放到本地磁盘中

2：在计算模型方面 - Spark采用 DAG 图描述计算任务，Spark拥有更丰富的功能；MapReduce则只采用 Map和 Reduce两个函数,计算功能比较简单

3：在计算速度方面 - Spark 的计算速度更快

4：在容错方面 - Spark采用了和 MapReduce类似的方式，针对丢失和无法引用的RDD，Spark采用利用记录的transform，采取重新做已做过的 transform

5：在计算成本方面 - Spark是把RDD主要存放在内存存储介质中，则需要提供高容量的内存；而 MapReduce是面向磁盘的分布式计算框架，因此在成本考虑方面,Spark的计算成本高于 MapReduce计算框架

6：在简单易管理方面 - 目前Spark也在同一个集群上运行流处理、批处理和机器学习,同时Spark也可以管理不同类型的负载。这些都是 MapReduce做不到的

三、Spark工作机制

开始深入探讨Spark的内部工作原理，具体包括Spark运行的DAG图、Partition、容错机制、缓存管理以及数据持久化

1：DAG工作图

DAG是有向无环图

当用户运行action操作的时候, Spark调度器检查RDD的lineage图，生成一个DAG图

为了Spark更加高效的调度和计算，RDD DAG中还包括宽依赖和窄依赖

窄依赖是父节点 RDD 中的分区最多只被子节点 RDD 中的一个分区使用

宽依赖是父节点RDD中的分区被子节点 RDD 中的多个子分区使用

采用DAG方式描述运行逻辑，可以描述更加复杂的运算功能，也有利于Spark调度器调度

2：分区Partition

Spark 执行每次操作transformation都会产生一个新的RDD，每个RDD是Partition分区的集合

在Spark中 ,操作的粒度是Partition分区

当前支持的分区方式有hash分区和范围(range)分区

3：Linedge容错方法

在容错方面有多种方式，包括数据复制以及记录修改日志

RDD本身是一个不可更改的数据集，Spark根据transformation和action构建它的操作图DAG

当执行任务的 Worker失败时完全可以通过操作图 DAG 获得之前执行的操作，进行重新计算

针对RDD的wide dependency，最有效的容错方式同样是采用checkpoint机制，但是当前，Spark并没有引入auto checkpointing机制

4：内存管理

旧版本Spark的内存空间分成了3块独立的区域，每块区域的内存容量是按照JVM堆大小的固定比例进行分配的

1：Execution - 在执行shuffle、join、sort和aggregation时，Execution用于缓存中间数据默认为0.2

2：Storage - Storage主要用于缓存数据块以提高性能，同时也用于连续不断地广播或发送大的任务结果默认为0.6

3：Other - 这部分内存用于存储运行系统本身需要加载的代码与元数据默认为0.2

无论是哪个区域的内存，只要内存的使用量达到了上限，则内存中存储的数据就会被放入到硬盘中，从而清理出足够的内存空间，

5：数据读取

Spark最重要的一个功能是它可以通过各种操作 (operations)持久化(或者缓存 )一个集合到内存中

这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快速的交互使用来说,缓存是一个关键的工具

用户可以利用不同的存储级别存储每一个被持久化的RDD

四、数据读取

Spark支持多种外部数据源来创建 RDD，Hadoop支持的所有格式Spark都支持

包括HDFS Amazon S3 HBase等等

创作不易觉得有帮助请点赞关注收藏~~~

【云计算与大数据技术】Spark的解析（图文解释超详细必看）

一、Spark RDD

创建RDD

二、Spark与MapReduce对比

三、Spark工作机制

1：DAG工作图

2：分区Partition

3：Linedge容错方法

4：内存管理

5：数据读取

四、数据读取

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【云计算与大数据技术】Spark的解析（图文解释 超详细必看）

一、Spark RDD

创建RDD

二、Spark与MapReduce对比

三、Spark工作机制

1：DAG工作图

2：分区Partition

3：Linedge容错方法

4：内存管理

5：数据读取

四、数据读取

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

【云计算与大数据技术】Spark的解析（图文解释超详细必看）