开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:阶段练习_需求介绍和明确步骤】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/11987
阶段练习_需求介绍和明确步骤
内容介绍
一、前言
二、阶段介绍
三、阶段练习
一、前言
经过前面的学习,现在对 Spark 有了较多的了解,也对 Spark core
做了很多说明,它最重要的组成部分是 RDD ,我们讲解 Spark core
的过程,其实就是讲解 RDD 的过程。
Spark core 大致分为两个大阶段,第一个阶段是入门讲解,第二阶段
是入门细节的补充说明,以及使用介绍,也就是扩展阶段。
二、阶段介绍
第一大阶段分为四个小部分,第一部分是 Spark 的概述,简单说明了
Spark 是由哪四部分组成的。第二部分是搭建 Spark 集群。第三部分
是编写 Spark 入门案例,在入门案例中写了一个词频统计,相当于是
大数据领域当中的 hello world 。在词频统计案例中,有很多细节在
第四部分, RDD 的入门介绍中进行了一些补充说明。
第二大阶段是 SparkCore 的扩展内容,到此为止,已经讲解了两个部分的内容。第一部分是深入了解 RDD ,对 RDD 有了更深层次的定义,包括 RDD 的特性和五大属性。
第二部分是了解 RDD 算子,RDD 算子分为两大类,
Transformation 算子和 Action 算子,前者是惰性的,需要后者去执行。然后简单介绍了 Spark 对于 KV 型数据和数字型数据的支持。
三、阶段练习
在了解 Spark 原理之前,还有一小部分内容跟大家介绍,即阶段练习和 RDD 的特性说明。在学习了很多算子之后,现在是否能理解整个 Spark 的使用规则。在阶段练习这一部分,将解决大家使用 Spark 时产生的困惑,希望会对大家有所帮助。
第一步,看一下数据集组成,即数据集的格式;第二步明确需求;第三步明确步骤;第四步编码,这是一整个过程。
进入数据集,这个数据集是一个 csv 的格式,所以可以直接使用 excel
打开,数据集的第一行是字符串。 csv 类似于一个关系表,第一列称
之为整个数据值的编号,第二列是年份,第三列是月份,第四列是日期,
第五列小时,第六列是季节,第七、八、九、十列是不同地区的 PM 值,
后面是一些比较专业的参数。
这是这个数据集的组成,是2010年1月1号至2015年12月31号,
北京地区 PM 值的统计和记录。需求是按月统计 PM 值,求每个月
PM 的总值和平均值,最大 PM 值和最小 PM 值的月份。然后我们确
认一下步骤,读取文件,抽取数据集中对我们有用的数据,根据需求进
行 reduceByKey ,统计 PM 值,进行排序,获取最终结果。
这就是整个的步骤