本节书摘来自华章出版社《Spark大数据分析:核心概念、技术及实践》一书中的第1章,第1.7节,作者[美] 穆罕默德·古勒(Mohammed Guller),更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.7 总结
近年来数据的指数级增长给许多大数据技术带来了机会。传统的专有产品要么无法处理大数据,要么代价太昂贵。这就为开源大数据技术打开了一扇门。仅仅在过去几年里,这个领域的快速创新已经催生出很多新产品。大数据领域如此之大,以至于可以写一本书专门来介绍各种各样的大数据技术。
本章仅讨论了几项与Spark相关的大数据技术,也介绍了Hadoop及其生态系统中的关键技术。Spark也是这个生态系统中的一部分。
Spark将在第3章介绍。第2章会先讨论Scala,一种集函数式编程和面向对象编程于一体的编程语言。理解Scala非常重要,因为本书中所有示例代码都用Scala编写。另外,Spark本身用Scala所写,但也支持其他语言,如Java、Python和R。