RDD 入门_SparkContext|学习笔记

简介: 快速学习 RDD 入门_SparkContext

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段RDD 入门_SparkContext】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11951


RDD 入门_SparkContext

课题引入:

RDD 代码:

了解 rdd 的创建方式 (new object ()),rdd 表示数据集,弹性式和分布式的。

使用 spark 提供的 API 创建 rdd 类似于动态工厂、动态方法。需先了解 sparkcore 入口,被称为 sparkcontext。


通过本地集合创建 RDD

方法一:

wordcount 案例中读取 HDFS 文件,创建 rdd ;

方法二:

通过外部数据创建 rdd ;

方法三:

通过 rdd 衍生新的 rdd。

image.png

具体了解如下:

程序入口 sparkcontext

val conf =new sparkconf( ).setmaster(“local[2]”)

val sc:sparkcontext =new sparkcontext(conf)

Sparkcontext 是 spark-core 的入口组件,是一个 spark 程序的入口,在 spark 0.x 版本就已经存在 sparkcontext ,是元老级的 API 。

如果把一个 spark 程序分为前后端,则服务端是可运行 spark 程序的集群,而 driver 是 spark 的前端,

在 driver 中 sparkcontext 是最主要的组件,也是 driver 在运行时首先会创建的组件,是 driver 的核心。

sparkcontext 从供应的 API 来看,主要作用是连接集群、创建 RDD、 累加器、广播变量等。

image.png

观察 sparkcontext 中的 API ,进入代码工具,先打开 mspark 文件,其中的 dependency 部分中 jumit 的文件包,使用 jumit 可以在方法上编写测试。

首先把 object 改为 class ,编写一个方法进行 sparkcontext 的学习,即:

@Test(切记导入包)

def sparkcontext():Unit ={

//1.sparkcontext 如何编写

//①创建 sparkconf

valconf=new sparkconf

().setMaster(“local[6]”).setAppName

(“spark_context”)

//②创建 sparkcontext

val sc= new sparkcontext(conf)

//sparkcontext 身为大入口 API ,应该能够创建 RDD, 并且设置参数,设置 jar 包。

sc. ...

//2.关闭 sparkcontext, 释放集群资源

}                                                    

相关文章
|
2月前
|
存储 分布式计算 程序员
Spark中的RDD介绍
Spark中的RDD介绍
22 0
|
存储 缓存 分布式计算
Spark RDD详解!
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset, 简 称 RDD) 。 RDD 其实就是分布式的元素集合。在 Spark 中, 对数据的所有操作不外乎 创 建 RDD、 转化已有 RDD 以及 调用 RDD 操作进行求值。而在这一切背后, Spark 会自动将 RDD 中的数据分发到集群上,并将操作并行化执行。
Spark RDD详解!
|
缓存 分布式计算 Spark
Spark RDD开发
开发步骤
59 0
|
消息中间件 分布式计算 Kafka
spark RDD
RDD
58 0
|
分布式计算 Spark
Spark RDD
转换和操作
56 0
|
存储 分布式计算 并行计算
Spark RDD
RDD
64 0
|
存储 分布式计算 Spark
PySpark|RDD编程基础
PySpark数据结构RDD编程基础
PySpark|RDD编程基础
|
存储 分布式计算 自然语言处理
RDD 入门_RDD 是什么|学习笔记
快速学习 RDD 入门_RDD 是什么
80 0
RDD 入门_RDD 是什么|学习笔记
|
存储 分布式计算 Hadoop
【Spark】【RDD】初次学习RDD 笔记 汇总 (2)
【Spark】【RDD】初次学习RDD 笔记 汇总 (2)
259 0
【Spark】【RDD】初次学习RDD 笔记 汇总 (2)
|
存储 SQL 分布式计算
【Spark】【RDD】初次学习RDD 笔记 汇总 (1)
【Spark】【RDD】初次学习RDD 笔记 汇总
200 0
【Spark】【RDD】初次学习RDD 笔记 汇总 (1)