开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段:RDD 入门_SparkContext】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/688/detail/11951
RDD 入门_SparkContext
课题引入:
RDD 代码:
了解 rdd 的创建方式 (new object ()),rdd 表示数据集,弹性式和分布式的。
使用 spark 提供的 API 创建 rdd 类似于动态工厂、动态方法。需先了解 sparkcore 入口,被称为 sparkcontext。
通过本地集合创建 RDD
方法一:
wordcount 案例中读取 HDFS 文件,创建 rdd ;
方法二:
通过外部数据创建 rdd ;
方法三:
通过 rdd 衍生新的 rdd。
具体了解如下:
程序入口 sparkcontext
val conf =new sparkconf( ).setmaster(“local[2]”)
val sc:sparkcontext =new sparkcontext(conf)
Sparkcontext 是 spark-core 的入口组件,是一个 spark 程序的入口,在 spark 0.x 版本就已经存在 sparkcontext ,是元老级的 API 。
如果把一个 spark 程序分为前后端,则服务端是可运行 spark 程序的集群,而 driver 是 spark 的前端,
在 driver 中 sparkcontext 是最主要的组件,也是 driver 在运行时首先会创建的组件,是 driver 的核心。
sparkcontext 从供应的 API 来看,主要作用是连接集群、创建 RDD、 累加器、广播变量等。
观察 sparkcontext 中的 API ,进入代码工具,先打开 mspark 文件,其中的 dependency 部分中 jumit 的文件包,使用 jumit 可以在方法上编写测试。
首先把 object 改为 class ,编写一个方法进行 sparkcontext 的学习,即:
@Test(切记导入包)
def sparkcontext():Unit ={
//1.sparkcontext 如何编写
//①创建 sparkconf
valconf=new sparkconf
().setMaster(“local[6]”).setAppName
(“spark_context”)
//②创建 sparkcontext
val sc= new sparkcontext(conf)
//sparkcontext 身为大入口 API ,应该能够创建 RDD, 并且设置参数,设置 jar 包。
sc. ...
//2.关闭 sparkcontext, 释放集群资源
}