本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第3章,第3.10节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.10 总结
Spark是一个快速、可扩展、可容错且基于内存的集群计算框架。一个Spark应用可以比Hadoop应用快上100倍。
Spark不但快速而且它能很方便地使用mapReduce。通过不同语言(包括Java、Python、Scala和R)的易读的API,它可以方便地开发分布式大数据应用。使用Spark开发者的生产力可以有5~10倍的提升。
而且Spark为各种数据处理任务提供了统一的平台。它是一个通用的框架,可以被各种大数据应用使用。对于迭代式数据分析或者使用迭代算法的应用而言,它是一个理想的平台。
Spark的编程模型基于一个叫作RDD的抽象概念。从概念上看,RDD类似于Scala中的集合。它表示的数据就是一组分区的集合,这些分区分布在集群的节点上。它还为处理数据提供一些函数式的方法。