准备
- 2017-12-19-Hadoop2.0架构及HA集群配置(1)
- 2017-12-24-Hadoop2.0架构及HA集群配置(2)
- 2017-12-25-Spark集群搭建
- 2017-12-29-Hadoop和Spark的异同
- 2017-12-28-Spark-HelloWorld(Spark开发环境搭建)
相关概念
Spark的编程模型
- 示例
import org.apache.spark.{SparkConf, SparkContext} /** * @author Yezhiwei * @date 17/12/27 */ object WordCount { def main (args: Array[String]){ val conf = new SparkConf().setAppName("WordCount") val sc = new SparkContext(conf) val inputRDD = sc.textFile("README.md") val pythonLinesRDD = inputRDD.filter(line => line.contains("Python")) val wordsRDD = pythonLinesRDD.flatMap(line => line.split(" ")) val countsRDD = wordsRDD.map(word => (word, 1)).reduceByKey(_ + _) countsRDD.saveAsTextFile("outputFile") sc.stop() } }
- 解释
1.创建应用程序
SparkContext
2.创建RDD,有两种方式,方式一:输入算子,即读取外部存储创建RDD,Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。方式二:从集合创建RDD
3.Transformation 算子,这种变换并不触发提交作业,完成作业中间过程处理。也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。
4.Action 算子,这类算子会触发 SparkContext 提交 Job 作业。并将数据输出 Spark系统。
5.保存结果
6.关闭应用程序