阶段练习_总结 | 学习笔记

简介: 快速学习 阶段练习_总结

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段阶段练习_总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11989


阶段练习_总结


思考:整个 spark 编写的一般套路应该是怎样的?

总结套路,注意代码,第一步创建 spark context,也就是进行环境的处理。

第二步创建 RDD ,创建 RDD 有很多种方式,当前阶段练习是采取读取文件的方式,但是也可以使用本地集合去创建,第三步处理 RDD ,也就是使用算子的步骤,会使用很多算子。然后行动去得到结果,就是调用 firstTake API

RDD 整体使用步骤:

创建 RDD

两种方式:

Sc.parallelize() //本地集合

Sc.textFile()//读取文件

转换算子

使用 textfile 读取文件时,应该对单值的数据进行处理。也就是,拿到一整串字符串要拆分,然后让他具有一些规律生成,第一步是要针对单值的数据进行转换算子操作。接下来单值数据生成 keyvideo  以后,就可以针对于  KV 使用reducebykey 的算法进行统计。

行动算子

first take,这样的算子来进行具体代码的执行。

image.png

相关文章
|
1月前
|
监控 数据可视化 安全
软件生命周期是什么?包括哪些阶段?各阶段的目标和任务是什么?
在数字化时代,软件如同空气般无处不在,其生命周期涵盖从需求分析到退役的多个阶段,如同生物的成长过程。本文详细介绍了软件生命周期各阶段的目标与任务,并探讨了瀑布模型、迭代模型和敏捷模型等常见生命周期模型。未来,随着技术和业务的不断演变,软件生命周期管理将面临更多挑战与机遇,需不断学习先进方法和技术,以满足用户需求。
|
3月前
|
SQL 自然语言处理 知识图谱
预训练模型STAR问题之在任务拆解阶段,TKK框架工作的问题如何解决
预训练模型STAR问题之在任务拆解阶段,TKK框架工作的问题如何解决
|
6月前
|
Linux
第一阶段复习总结——第二阶段复习提纲
在紧张的工作和出差中,我完成了第一阶段的复习,覆盖了所有预设内容,后期需要继续加强组网实战和学习阿里云的云速搭(CADT)工具。第二阶段复习计划从2024年3月21日至4月20日,时间延长以确保质量,将利用阿里云在线沙箱进行实践学习。
|
6月前
|
存储 算法 测试技术
科先巴的二阶段算法
科先巴的二阶段算法
128 0
|
数据采集 消息中间件 监控
第六阶段总结| 学习笔记
快速学习第六阶段总结
第六阶段总结| 学习笔记
|
数据采集 消息中间件 大数据
第五阶段总结|学习笔记
快速学习第五阶段总结。
100 0
第五阶段总结|学习笔记
|
数据采集 消息中间件 JSON
第七阶段总结|学习笔记
快速学习第七阶段总结
第七阶段总结|学习笔记
|
前端开发 API 数据库
第五阶段项目
api Dao UserDaoImpl Service Controler pom文件
120 0
|
分布式计算 大数据 Spark
阶段练习_需求介绍和明确步骤 | 学习笔记
快速学习 阶段练习_需求介绍和明确步骤
107 0
阶段练习_需求介绍和明确步骤 | 学习笔记
|
数据采集 消息中间件 NoSQL
第一阶段总结|学习笔记
快速学习第一阶段总结
第一阶段总结|学习笔记