《Spark大数据处理:技术、应用与性能优化》——第3章 Spark计算模型3.1 Spark程序模型-阿里云开发者社区

开发者社区> 华章出版社> 正文
登录阅读全文

《Spark大数据处理:技术、应用与性能优化》——第3章 Spark计算模型3.1 Spark程序模型

简介:

本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第3章,第3.1节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章 Spark计算模型

创新都是站在巨人的肩膀上产生的,在大数据领域也不例外。微软的Dryad使用DAG执行模式、子任务自由组合的范型。该范型虽稍显复杂,但较为灵活。Pig也针对大关系表的处理提出了很多有创意的处理方式,如flatten、cogroup。经典虽难以突破,但作为后继者的Spark借鉴经典范式并进行创新。经过实践检验,Spark的编程范型在处理大数据时显得简单有效。的数据处理与传输模式也大获全胜。
Spark站在巨人的肩膀上,依靠Scala强有力的函数式编程、Actor通信模式、闭包、容器、泛型,借助统一资源分配调度框架Mesos,融合了MapReduce和Dryad,最后产生了一个简洁、直观、灵活、高效的大数据分布式处理框架。
与Hadoop不同,Spark一开始就瞄准性能,将数据(包括部分中间数据)放在内存,在内存中计算。用户将重复利用的数据缓存到内存,提高下次的计算效率,因此Spark尤其适合迭代型和交互型任务。Spark需要大量的内存,但性能可随着机器数目呈多线性增长。本章将介绍Spark的计算模型。

3.1 Spark程序模型

下面通过一个经典的示例程序来初步了解Spark的计算模型,过程如下。
1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量file。
val file=sc.textFile("hdfs://xxx")
2)RDD中的filter函数过滤带“ERROR”的行,输出errors(errors也是一个RDD)。

val errors=file.filter(line=>line.contains("ERROR")

3)RDD的count函数返回“ERROR”的行数:errors.count()。
RDD操作起来与Scala集合类型没有太大差别,这就是Spark追求的目标:像编写单机程序一样编写分布式程序,但它们的数据和运行模型有很大的不同,用户需要具备更强的系统把控能力和分布式系统知识。
从RDD的转换和存储角度看这个过程,如图3-1所示。


<a href=https://yqfile.alicdn.com/6223ab45d8c5b95dc2a7b06cd7434292cd9e72e1.png" >

在图3-1中,用户程序对RDD通过多个函数进行操作,将RDD进行转换。Block-Manager管理RDD的物理分区,每个Block就是节点上对应的一个数据块,可以存储在内存或者磁盘。而RDD中的partition是一个逻辑数据块,对应相应的物理块Block。本质上一个RDD在代码中相当于是数据的一个元数据结构,存储着数据分区及其逻辑结构映射关系,存储着RDD之前的依赖转换关系。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: