IntelliJ IDEA开发Spark案例之WordCount(非Maven、离线版)

简介: IntelliJ IDEA开发Spark案例之WordCount(非Maven、离线版)

0x00 教程内容


  1. 新建Scala项目
  2. 编写Scala代码
  3. 打包到服务器执行


实验前提:

a. 安装好了windows本地的scala

b. 安装好了IDEA的scala插件

c. 安装好了JDK


0x01 新建Scala项目


1. 新建Scala项目

a. 新建一个Scala项目,先选择Java,然后在右边选择Scala,配置好解压之后的scala包,其他的默认


image.png


b. 如果有提示,可以随便选一个


image.png


2. 项目配置

a. 右击src,建一个包,比如:com.shaonaiyi

image.png


b. 然后编辑项目结构,加入我们的Scala SDK(找到我们win本地的Scala主目录即可):


image.png


image.png


c. 导入我们的Spark依赖jar包(选择Spark主目录下的jars目录,然后一直OK):


image.png


0x02 编写Scala代码


1. 新建Scala类

a. 右击包名:com.shaonaiyi,创建Scala Class,然后选择Kind为Object


image.png


2. 编写WordCount代码

a. 修改Wordcount类为:


package com.shaonaiyi
import org.apache.spark.SparkContext
object Wordcount {
  def main(args: Array[String]): Unit = {
    var sc = new SparkContext("local[2]","Wordcount")
    var file = sc.textFile("spark-wc.iml")
    var wordRDD = file.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).sortBy(_._2)
    wordRDD.foreach(println(_))
  }
}


3. 本地执行

a. 执行代码可以看到统计结果

image.png


0x03 打包到服务器执行


1. 设置打包工程

a. 选择一种类型的包

image.png


c. 排除我们服务器上有的包,即服务器已经有的jar包就不用也把他们打包上去了。


image.png


然后一直ok,执行完,稍等一会可以看到src同级目录下多了个out文件夹。

2. 打包操作

a. 打包


image.png


b. 执行完可以看到out目录有jar包了


image.png


3. 上传服务器并执行

a. 使用XFtp等工具上传jar包和项目下的即可(此处直接上传到~)

spark-wc.jar

spark-wc.iml

到~路径下


b. 启动spark

$SPARK_HOME/sbin/start-all.sh

c. 执行(在jar包当前路径下):

spark-submit spark-wc.jar


注意要配置好spark的环境变量,才可以在任意路径下执行spark-submit操作,此处不再累赘。


0x04 统计结果展示


统计结果:

image.png


0xFF 总结


  1. 本教程不用联网也可以执行Spark案例,此外,一样也可以执行机器学习等案例。
  2. 本教程非常关键,因为网络不好或者是简单的项目,这种传统的方式也是非常简单方便的。
  3. Maven工程版本,请查看教程:IntelliJ IDEA开发Spark案例之WordCount
相关文章
|
3月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
78 5
|
3月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
59 3
|
3月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
79 0
|
11天前
|
IDE 开发工具
【开发IDE升级】如何对IDEA版本进行升级
本文介绍了如何将 IntelliJ IDEA Ultimate 从 2020.2.2 版本升级到 2022.3.2 版本。主要内容包括准备工作、卸载旧版本和安装新版本的步骤。首先,从官网下载所需版本并备份旧版配置;接着,通过 Uninstall.exe 卸载旧版,保留配置和插件;最后,安装新版并完成激活。详细的操作步骤和截图帮助用户顺利完成升级过程。
【开发IDE升级】如何对IDEA版本进行升级
|
17天前
|
前端开发 Java 开发者
这款免费 IDEA 插件让你开发 Spring 程序更简单
Feign-Helper 是一款支持 Spring 框架的 IDEA 免费插件,提供 URL 快速搜索、Spring Web Controller 路径一键复制及 Feign 与 Controller 接口互相导航等功能,极大提升了开发效率。
|
3月前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
52 1
|
3月前
|
人工智能 Java 数据库连接
IDEA开发 常用代码规范插件 常用辅助类插件
IDEA开发 常用代码规范插件 常用辅助类插件
90 0
|
3月前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
119 0
|
3月前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
68 0
|
3月前
|
SQL 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
59 0

推荐镜像

更多