开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段:Spark 入门_独立应用编写】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/688/detail/11948
Spark 入门_独立应用编写
目标:
一、理解如何编写 spark 独立应用
二、理解 wordcount 的代码流程
一、理解如何编写 spark 独立应用
编写具体步骤:
创建 IDEA 工程后,将笔记中的 maven 配置文件拷贝到工程,覆盖配置文件,文件分为四个部分,第一部分是基础的工程信息,包括 <properties... > 是参数的配置,
<dependenices...> 是所依赖的 jar 包, <build> 分为两部分,包括代码路径,以及测试代码路径。
第二部分<plugins...> 即插件,包括 <source> 插件,指定版本, <plugin> 依赖件,提供支持, <plugin> 打包插件,集成作用,创建 source,test 的目录,在 scala 中将对应的包创建完毕,
第一个包 cn.itcast.spark.rdd ,在此包下创建新的 scala 文件,命名为 wordcount ,直接编写 main 方法
二、理解 wordcount 的代码流程
整理代码步骤:
package cn.itcast.spark.rdd
import java.util
object wordcount {
def main(args:util.Arrays[String]):Unit ={
//1.创建 sparkcontext
val conf=new
sparkconf().setmaster(“local[6]”) .setappname(“word_count”)
val sc = new sparkcontext(conf)
//2.加载文件
//①准备文件(工程根目录下创建一个新目录,在 dataset 下创建一个新的文件 wordcount.txt ,
编写文件:hadoop spark flume ;hadoop sqoop;spark hello 关闭文件)
//②读取文件
val rdd1=sc.textFile(path= “dataset/wordcount.txt”)
//3.处理
//①把整句话拆分为多个单词
val rdd2=rdd1.flatmap(item=>item.split(regex= “”))
//②把每个单词指定一个词频1
val rdd3=rdd2.map(item=> (item,1))
//③聚合
val rdd4=rdd3.reduceByKey((curr,agg)=>curr+agg)
//4.得到结果
val result=rdd4.collect()println(result)
Step1 创建工程
①创建 IDEA 工程
A.+create New project => m Maven =>Next
B.Groupld cn.itcast => Artifactld spark =>Next
②增加 scala 支持
A.右键点击工程目录 spark-/Work/Project/itc
B.选择增加框架支持 Add Framework Support
C.选择 scala 添加框架文件
Step2 编写 Maven 配置文件 pom.xml
①工程目录下增加文件 pom.xml
②添加以下内容