Spark 入门_执行过程|学习笔记

简介: 快速学习 Spark 入门_执行过程

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段Spark 入门_执行过程】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11946


Spark 入门_执行过程

回顾:

val rdd1=sc.textFile(“...”)

val rdd2=rdd1.flatMap(item=>item.split(“ ”))

val rdd3=rdd2.map(item=>(item,1))

Val rdd4=rdd3.reduceByKey((curr,agg)=>curr+agg)

rdd4.collect ()

内容介绍:

其中涉及到的算子:

1.flatMap (转换,一对多)

2.map (转换,字符串的数据转换为元素的数据)

3.reduceByKey (按照 K 相同的元素执行聚合)

整体流程如图:

image.png

1.flatMap (转换,一对多)

需要将 rdd 中每一行的转为三个元素的形式,即为一对多的过程,转化过程涉及到的算子为 flatMap 。

2.map (转换,字符串的数据转换为元素的数据)

每个元素需要转化为词频,即 hadoop => (hadoop,1)如图。

3.reduceByKey (按照 K 相同的元素执行聚合)

之后将所有的 hadoop 找出,按照相同的 K 执行 reduce,K 相同的情况下词频 hadoop 后的1相加,“+”指定位置为传入 reduceByKey 算子的“+”,通过 collect 收集电脑运行结果。

相关文章
|
5月前
|
SQL 分布式计算 调度
Spark入门(一篇就够了)(三)
Spark入门(一篇就够了)(三)
121 0
|
6月前
|
SQL 分布式计算 Java
Spark入门指南:从基础概念到实践应用全解析
在这个数据驱动的时代,信息的处理和分析变得越来越重要。而在众多的大数据处理框架中, Apache Spark 以其独特的优势脱颖而出。
66 0
|
7月前
|
存储 分布式计算 网络协议
大数据Spark Streaming入门
大数据Spark Streaming入门
80 1
|
1天前
|
分布式计算 大数据 数据处理
[AIGC大数据基础] Spark 入门
[AIGC大数据基础] Spark 入门
|
5月前
|
存储 缓存 分布式计算
Spark入门(一篇就够了)(一)
Spark入门(一篇就够了)(一)
132 0
|
5月前
|
分布式计算 Hadoop 大数据
178 Spark入门
178 Spark入门
30 0
|
2月前
|
分布式计算 资源调度 监控
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
Spark学习--1、Spark入门(Spark概述、Spark部署、Local模式、Standalone模式、Yarn模式)(一)
93 1
|
2月前
|
数据采集 分布式计算 Linux
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
Spark实时(数据采集)项目小知识点--sed -i命令详解及入门攻略
111 0
|
5月前
|
SQL JSON 分布式计算
Spark入门(一篇就够了)(二)
Spark入门(一篇就够了)(二)
67 0
|
6月前
|
SQL 分布式计算 Java
Spark入门指南:从基础概念到实践应用全解析
Spark入门指南:从基础概念到实践应用全解析