五分钟零基础介绍 spark
相信大家都听说过火的不能再火、炒得不能再炒的新一代大数据处理框架 Spark. 那么 Spark 是何方神圣?为何大有取代 Hadoop 的势头?Spark 内部又是如何工作的呢?我们会用几篇文章为大家一一介绍。
Hadoop:我不想知道我是怎么来的,我就想知道我是怎么没的?
还是从 Hadoop 处理海量数据的架构说起,一个 Hadoop job 通常都是这样的:
从 HDFS 读取输入数据;
在 Map 阶段使用用户定义的 mapper function, 然后把结果写入磁盘;
在 Reduce 阶段,从各个处于 Map 阶段的机器中读取 Map 计算的中间结果,使用用户定义的 r