《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型-阿里云开发者社区

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

2017-07-03 1514

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《Spark大数据处理：技术、应用与性能优化》一书中的第3章，第3.1节,作者:高彦杰更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章 Spark计算模型

创新都是站在巨人的肩膀上产生的，在大数据领域也不例外。微软的Dryad使用DAG执行模式、子任务自由组合的范型。该范型虽稍显复杂，但较为灵活。Pig也针对大关系表的处理提出了很多有创意的处理方式，如flatten、cogroup。经典虽难以突破，但作为后继者的Spark借鉴经典范式并进行创新。经过实践检验，Spark的编程范型在处理大数据时显得简单有效。的数据处理与传输模式也大获全胜。
Spark站在巨人的肩膀上，依靠Scala强有力的函数式编程、Actor通信模式、闭包、容器、泛型，借助统一资源分配调度框架Mesos，融合了MapReduce和Dryad，最后产生了一个简洁、直观、灵活、高效的大数据分布式处理框架。
与Hadoop不同，Spark一开始就瞄准性能，将数据（包括部分中间数据）放在内存，在内存中计算。用户将重复利用的数据缓存到内存，提高下次的计算效率，因此Spark尤其适合迭代型和交互型任务。Spark需要大量的内存，但性能可随着机器数目呈多线性增长。本章将介绍Spark的计算模型。

3.1　Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型，过程如下。
1）SparkContext中的textFile函数从HDFS读取日志文件，输出变量file。
val file=sc.textFile("hdfs://xxx")
2）RDD中的filter函数过滤带“ERROR”的行，输出errors（errors也是一个RDD）。

val errors=file.filter(line=>line.contains("ERROR")

3）RDD的count函数返回“ERROR”的行数：errors.count()。
RDD操作起来与Scala集合类型没有太大差别，这就是Spark追求的目标：像编写单机程序一样编写分布式程序，但它们的数据和运行模型有很大的不同，用户需要具备更强的系统把控能力和分布式系统知识。
从RDD的转换和存储角度看这个过程，如图3-1所示。

https://yqfile.alicdn.com/6223ab45d8c5b95dc2a7b06cd7434292cd9e72e1.png" >

在图3-1中，用户程序对RDD通过多个函数进行操作，将RDD进行转换。Block-Manager管理RDD的物理分区，每个Block就是节点上对应的一个数据块，可以存储在内存或者磁盘。而RDD中的partition是一个逻辑数据块，对应相应的物理块Block。本质上一个RDD在代码中相当于是数据的一个元数据结构，存储着数据分区及其逻辑结构映射关系，存储着RDD之前的依赖转换关系。

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

第3章 Spark计算模型

3.1　Spark程序模型

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1 Spark程序模型

第3章 Spark计算模型

3.1 Spark程序模型

华章出版社

热门文章

最新文章

相关课程

相关电子书

《Spark大数据处理：技术、应用与性能优化》——第3章 Spark计算模型3.1　Spark程序模型

3.1　Spark程序模型