开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段:Spark 入门_执行过程】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/688/detail/11946
Spark 入门_执行过程
回顾:
val rdd1=sc.textFile(“...”)
val rdd2=rdd1.flatMap(item=>item.split(“ ”))
val rdd3=rdd2.map(item=>(item,1))
Val rdd4=rdd3.reduceByKey((curr,agg)=>curr+agg)
rdd4.collect ()
内容介绍:
其中涉及到的算子:
1.flatMap (转换,一对多)
2.map (转换,字符串的数据转换为元素的数据)
3.reduceByKey (按照 K 相同的元素执行聚合)
整体流程如图:
1.flatMap (转换,一对多)
需要将 rdd 中每一行的转为三个元素的形式,即为一对多的过程,转化过程涉及到的算子为 flatMap 。
2.map (转换,字符串的数据转换为元素的数据)
每个元素需要转化为词频,即 hadoop => (hadoop,1)如图。
3.reduceByKey (按照 K 相同的元素执行聚合)
之后将所有的 hadoop 找出,按照相同的 K 执行 reduce,K 相同的情况下词频 hadoop 后的1相加,“+”指定位置为传入 reduceByKey 算子的“+”,通过 collect 收集电脑运行结果。