开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:阶段练习_总结】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/11989
阶段练习_总结
思考:整个 spark 编写的一般套路应该是怎样的?
总结套路,注意代码,第一步创建 spark context,也就是进行环境的处理。
第二步创建 RDD ,创建 RDD 有很多种方式,当前阶段练习是采取读取文件的方式,但是也可以使用本地集合去创建,第三步处理 RDD ,也就是使用算子的步骤,会使用很多算子。然后行动去得到结果,就是调用 first,Take 等API。
RDD 整体使用步骤:
创建 RDD
两种方式:
Sc.parallelize()
//本地集合
Sc.textFile()
//读取文件
转换算子
使用 textfile 读取文件时,应该对单值的数据进行处理。也就是,拿到一整串字符串要拆分,然后让他具有一些规律生成,第一步是要针对单值的数据进行转换算子操作。接下来单值数据生成 keyvideo 以后,就可以针对于 KV 使用reducebykey 的算法进行统计。
行动算子
first, take,这样的算子来进行具体代码的执行。