本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第2章,第2.3节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.3 本章小结
本章主要介绍了如何在Linux和Windows环境下安装部署Spark集群。
由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop。通过本章介绍,读者就可以开启Spark的实战之旅了。
下一章将介绍Spark的计算模型,Spark将分布式的内存数据抽象为弹性分布式数据集(RDD),并在其上实现了丰富的算子,从而对RDD进行计算,最后将算子序列转化为有向无环图进行执行和调度。