阶段练习_需求介绍和明确步骤 | 学习笔记

简介: 快速学习 阶段练习_需求介绍和明确步骤

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段阶段练习_需求介绍和明确步骤】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11987


阶段练习_需求介绍和明确步骤


内容介绍

一、前言

二、阶段介绍

三、阶段练习


一、前言

经过前面的学习,现在对 Spark 有了较多的了解,也对 Spark core

做了很多说明,它最重要的组成部分是 RDD ,我们讲解 Spark core

的过程,其实就是讲解 RDD 的过程。

Spark core 大致分为两个大阶段,第一个阶段是入门讲解,第二阶段

是入门细节的补充说明,以及使用介绍,也就是扩展阶段。


二、阶段介绍

第一大阶段分为四个小部分,第一部分是 Spark 的概述,简单说明了

Spark 是由哪四部分组成的。第二部分是搭建 Spark 集群。第三部分

是编写 Spark 入门案例,在入门案例中写了一个词频统计,相当于是

大数据领域当中的 hello world 。在词频统计案例中,有很多细节在

第四部分, RDD 的入门介绍中进行了一些补充说明。

第二大阶段是 SparkCore 的扩展内容,到此为止,已经讲解了两个部分的内容。第一部分是深入了解 RDD ,对 RDD 有了更深层次的定义,包括 RDD 的特性和五大属性。

第二部分是了解 RDD 算子,RDD 算子分为两大类,

Transformation 算子和 Action 算子,前者是惰性的,需要后者去执行。然后简单介绍了 Spark 对于 KV 型数据和数字型数据的支持。


三、阶段练习

在了解 Spark 原理之前,还有一小部分内容跟大家介绍,即阶段练习和 RDD 的特性说明。在学习了很多算子之后,现在是否能理解整个 Spark 的使用规则。在阶段练习这一部分,将解决大家使用 Spark 时产生的困惑,希望会对大家有所帮助。

第一步,看一下数据集组成,即数据集的格式;第二步明确需求;第三步明确步骤;第四步编码,这是一整个过程。

进入数据集,这个数据集是一个 csv 的格式,所以可以直接使用 excel

打开,数据集的第一行是字符串。 csv 类似于一个关系表,第一列称

之为整个数据值的编号,第二列是年份,第三列是月份,第四列是日期,

第五列小时,第六列是季节,第七、八、九、十列是不同地区的 PM 值,

后面是一些比较专业的参数。

这是这个数据集的组成,是201011号至20151231号,

北京地区 PM 值的统计和记录。需求是按月统计 PM 值,求每个月

PM 的总值和平均值,最大 PM 值和最小 PM 值的月份。然后我们确

认一下步骤,读取文件,抽取数据集中对我们有用的数据,根据需求进

reduceByKey ,统计 PM 值,进行排序,获取最终结果。

1.png

这就是整个的步骤

相关文章
|
2天前
|
存储 算法 数据挖掘
详述RAG的5步流程和12个优化策略
详述RAG的5步流程和12个优化策略。
详述RAG的5步流程和12个优化策略
|
5月前
|
内存技术
AS3使用过程中问题总结
AS3使用过程中问题总结
34 0
|
9月前
Sub过程
参数表是用来指明调用该Sub过程时需要传递给该过程的参数及类型。表内的参数称为形参。Sub过程可以没有形参(但小括号不可以省略),也可1到多个形参(多个之间用逗号隔开);
Sub过程
|
Linux
嵌入式驱动开发案例实例过程
嵌入式驱动开发案例实例过程
|
分布式计算 算法 大数据
阶段练习_总结 | 学习笔记
快速学习 阶段练习_总结
39 0
阶段练习_总结 | 学习笔记
|
数据采集 消息中间件 监控
第六阶段总结| 学习笔记
快速学习第六阶段总结
69 0
第六阶段总结| 学习笔记
|
数据采集 消息中间件 大数据
第五阶段总结|学习笔记
快速学习第五阶段总结。
67 0
第五阶段总结|学习笔记
|
分布式计算 大数据 调度
Spark 原理_运行过程_总结和流程 | 学习笔记
快速学习 Spark 原理_运行过程_总结和流程
84 0
Spark 原理_运行过程_总结和流程 | 学习笔记
|
数据采集 消息中间件 JSON
第七阶段总结|学习笔记
快速学习第七阶段总结
65 0
第七阶段总结|学习笔记
|
Scala 开发工具 开发者
过程|学习笔记
快速学习过程。
43 0