阶段练习_需求介绍和明确步骤 | 学习笔记

简介: 快速学习 阶段练习_需求介绍和明确步骤

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段阶段练习_需求介绍和明确步骤】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11987


阶段练习_需求介绍和明确步骤


内容介绍

一、前言

二、阶段介绍

三、阶段练习


一、前言

经过前面的学习,现在对 Spark 有了较多的了解,也对 Spark core

做了很多说明,它最重要的组成部分是 RDD ,我们讲解 Spark core

的过程,其实就是讲解 RDD 的过程。

Spark core 大致分为两个大阶段,第一个阶段是入门讲解,第二阶段

是入门细节的补充说明,以及使用介绍,也就是扩展阶段。


二、阶段介绍

第一大阶段分为四个小部分,第一部分是 Spark 的概述,简单说明了

Spark 是由哪四部分组成的。第二部分是搭建 Spark 集群。第三部分

是编写 Spark 入门案例,在入门案例中写了一个词频统计,相当于是

大数据领域当中的 hello world 。在词频统计案例中,有很多细节在

第四部分, RDD 的入门介绍中进行了一些补充说明。

第二大阶段是 SparkCore 的扩展内容,到此为止,已经讲解了两个部分的内容。第一部分是深入了解 RDD ,对 RDD 有了更深层次的定义,包括 RDD 的特性和五大属性。

第二部分是了解 RDD 算子,RDD 算子分为两大类,

Transformation 算子和 Action 算子,前者是惰性的,需要后者去执行。然后简单介绍了 Spark 对于 KV 型数据和数字型数据的支持。


三、阶段练习

在了解 Spark 原理之前,还有一小部分内容跟大家介绍,即阶段练习和 RDD 的特性说明。在学习了很多算子之后,现在是否能理解整个 Spark 的使用规则。在阶段练习这一部分,将解决大家使用 Spark 时产生的困惑,希望会对大家有所帮助。

第一步,看一下数据集组成,即数据集的格式;第二步明确需求;第三步明确步骤;第四步编码,这是一整个过程。

进入数据集,这个数据集是一个 csv 的格式,所以可以直接使用 excel

打开,数据集的第一行是字符串。 csv 类似于一个关系表,第一列称

之为整个数据值的编号,第二列是年份,第三列是月份,第四列是日期,

第五列小时,第六列是季节,第七、八、九、十列是不同地区的 PM 值,

后面是一些比较专业的参数。

这是这个数据集的组成,是201011号至20151231号,

北京地区 PM 值的统计和记录。需求是按月统计 PM 值,求每个月

PM 的总值和平均值,最大 PM 值和最小 PM 值的月份。然后我们确

认一下步骤,读取文件,抽取数据集中对我们有用的数据,根据需求进

reduceByKey ,统计 PM 值,进行排序,获取最终结果。

1.png

这就是整个的步骤

相关文章
|
2月前
|
监控 数据可视化 安全
软件生命周期是什么?包括哪些阶段?各阶段的目标和任务是什么?
在数字化时代,软件如同空气般无处不在,其生命周期涵盖从需求分析到退役的多个阶段,如同生物的成长过程。本文详细介绍了软件生命周期各阶段的目标与任务,并探讨了瀑布模型、迭代模型和敏捷模型等常见生命周期模型。未来,随着技术和业务的不断演变,软件生命周期管理将面临更多挑战与机遇,需不断学习先进方法和技术,以满足用户需求。
|
4月前
|
人工智能 IDE 开发工具
实验步骤
【8月更文挑战第22天】实验步骤。
107 1
一次有趣的学习过程
嗨!大家好,我是小蚂蚁。 今天这篇文章记录的是一次有趣的学习过程,起因是昨天我在学员群里发了这样的一条信息。 这原本是一位学员的需求,想要在游戏中做一个文字逐个出现的打字机效果,因为我暂时还没有写与此相关的教程(也没有考虑过如何实现),所以就把这个问题抛了出来,顺便看一下大家的想法。 没想到的是这下可热闹了,下面记录的就是关于这次有趣的学习的全过程。
91 0
|
分布式计算 算法 大数据
阶段练习_总结 | 学习笔记
快速学习 阶段练习_总结
阶段练习_总结 | 学习笔记
|
数据采集 消息中间件 监控
第六阶段总结| 学习笔记
快速学习第六阶段总结
第六阶段总结| 学习笔记
|
数据采集 消息中间件 大数据
第五阶段总结|学习笔记
快速学习第五阶段总结。
102 0
第五阶段总结|学习笔记
|
前端开发 API 数据库
第五阶段项目
api Dao UserDaoImpl Service Controler pom文件
121 0
|
数据采集 消息中间件 JSON
第七阶段总结|学习笔记
快速学习第七阶段总结
第七阶段总结|学习笔记
|
Kubernetes 监控 负载均衡
第2步生产环境上 K8s 前,需要注意注意哪些问题|学习笔记
快速学习第2步生产环境上 K8s 前,需要注意哪些问题
257 0
第2步生产环境上 K8s 前,需要注意注意哪些问题|学习笔记
|
图形学 计算机视觉
3D建模入门学习方法,制作过程的六个主要阶段讲解
从来没有接触过建模的小白们是否都很好奇 自己最喜欢的3D电影或者是游戏角色 比如说《哪吒之魔童降世》里面的哪吒 《王者荣耀》里面的人物等等 都是怎样制作出来的呢?
149 0
3D建模入门学习方法,制作过程的六个主要阶段讲解