Spark 入门_独立应用编写|学习笔记

简介: 快速学习 Spark 入门_独立应用编写

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段Spark 入门_独立应用编写】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11948


Spark 入门_独立应用编写

目标:

一、理解如何编写 spark 独立应用

二、理解 wordcount 的代码流程


一、理解如何编写 spark 独立应用

编写具体步骤:

创建 IDEA 工程后,将笔记中的 maven 配置文件拷贝到工程,覆盖配置文件,文件分为四个部分,第一部分是基础的工程信息,包括 <properties... > 是参数的配置,

<dependenices...> 是所依赖的 jar 包, <build> 分为两部分,包括代码路径,以及测试代码路径。

第二部分<plugins...> 即插件,包括 <source> 插件,指定版本, <plugin> 依赖件,提供支持, <plugin> 打包插件,集成作用,创建 source,test 的目录,在 scala 中将对应的包创建完毕,

第一个包 cn.itcast.spark.rdd ,在此包下创建新的 scala 文件,命名为 wordcount ,直接编写 main 方法


二、理解 wordcount 的代码流程

整理代码步骤:

package cn.itcast.spark.rdd

import java.util

object wordcount {

def main(args:util.Arrays[String]):Unit ={

//1.创建 sparkcontext

val conf=new

sparkconf().setmaster(“local[6]”) .setappname(“word_count”)   val sc = new sparkcontext(conf)

//2.加载文件

//①准备文件(工程根目录下创建一个新目录,在 dataset 下创建一个新的文件 wordcount.txt ,

编写文件:hadoop spark flume ;hadoop sqoop;spark hello 关闭文件)

//②读取文件

val rdd1=sc.textFile(path= “dataset/wordcount.txt”)

//3.处理

//①把整句话拆分为多个单词

val rdd2=rdd1.flatmap(item=>item.split(regex= “”))

//②把每个单词指定一个词频1

val rdd3=rdd2.map(item=> (item,1))

//③聚合

val rdd4=rdd3.reduceByKey((curr,agg)=>curr+agg)

//4.得到结果

val result=rdd4.collect()println(result)

Step1 创建工程

①创建 IDEA 工程

A.+create New project => m Maven =>Next

B.Groupld cn.itcast => Artifactld spark =>Next

②增加 scala 支持

A.右键点击工程目录 spark-/Work/Project/itc

B.选择增加框架支持 Add Framework Support

C.选择 scala 添加框架文件

Step2 编写 Maven 配置文件 pom.xml

①工程目录下增加文件 pom.xml

②添加以下内容

image.png

相关文章
|
26天前
|
分布式计算 数据处理 Apache
Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
【10月更文挑战第10天】Spark和Flink的区别是什么?如何选择?都应用在哪些行业?
128 1
|
3月前
|
分布式计算 大数据 数据处理
Apache Spark的应用与优势:解锁大数据处理的无限潜能
【8月更文挑战第23天】Apache Spark以其卓越的性能、易用性、通用性、弹性与可扩展性以及丰富的生态系统,在大数据处理领域展现出了强大的竞争力和广泛的应用前景。随着大数据技术的不断发展和普及,Spark必将成为企业实现数字化转型和业务创新的重要工具。未来,我们有理由相信,Spark将继续引领大数据处理技术的发展潮流,为企业创造更大的价值。
|
3月前
|
分布式计算 资源调度 测试技术
“Spark Streaming异常处理秘籍:揭秘如何驯服实时数据流的猛兽,守护你的应用稳如泰山,不容错过!”
【8月更文挑战第7天】Spark Streaming 是 Apache Spark 中的关键组件,用于实时数据流处理。部署时可能遭遇数据问题、资源限制或逻辑错误等异常。合理处理这些异常对于保持应用稳定性至关重要。基础在于理解其异常处理机制,通过 DSC 将数据流切分为 RDD。对于数据异常,可采用 try-catch 结构捕获并处理;资源层面异常需优化 Spark 配置,如调整内存分配;逻辑异常则需加强单元测试及集成测试。结合监控工具,可全面提升应用的健壮性和可靠性。
76 3
|
4月前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
147 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
3月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
62 0
|
4月前
|
分布式计算 Hadoop Serverless
数据处理的艺术:EMR Serverless Spark实践及应用体验
阿里云EMR Serverless Spark是基于Spark的全托管大数据处理平台,融合云原生弹性与自动化,提供任务全生命周期管理,让数据工程师专注数据分析。它内置高性能Fusion Engine,性能比开源Spark提升200%,并有成本优化的Celeborn服务。支持计算存储分离、OSS-HDFS兼容、DLF元数据管理,实现一站式的开发体验和Serverless资源管理。适用于数据报表、科学项目等场景,简化开发与运维流程。用户可通过阿里云控制台快速配置和体验EMR Serverless Spark服务。
|
6月前
|
SQL 分布式计算 监控
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
本文演示了使用 EMR Serverless Spark 产品搭建一个日志分析应用的全流程,包括数据开发和生产调度以及交互式查询等场景。
56592 7
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
5月前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
129 6
|
5月前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
39 0
下一篇
无影云桌面