Spark修炼之道(进阶篇)——Spark入门到精通:第三节 Spark Intellij IDEA开发环境搭建

简介: 作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Intellij IDEA 14.1.4开发环境配置Spark应用程序开发1. Intellij IDEA 14.1.4开发环境配置Intellij IDEA 功能十分强大,能够开发JAVA、Scala等相关应用程序,在依赖管理 智能提示等方面做到了极致,大家可

作者:周志湖
网名:摇摆少年梦
微信号:zhouzhihubeyond

本节主要内容

  1. Intellij IDEA 14.1.4开发环境配置
  2. Spark应用程序开发

1. Intellij IDEA 14.1.4开发环境配置

Intellij IDEA 功能十分强大,能够开发JAVA、Scala等相关应用程序,在依赖管理
智能提示等方面做到了极致,大家可以到:http://www.jetbrains.com/idea/download/下载,目前有两种:Ultimate Edition Free 30-day trial;Community Edition FREE。Ultimate版本是商业软件,需要付费,Community 版为免费版,足够平时日常开发需要。最新的版是 Intellij IDEA 14.1.4,但Intellij IDEA 没有自带scala开发插件,需要手功安装,但本人测试的时候发现,直接在Intellij IDEA中装很难装成功(个中原因大家懂得),为此本人将带有Scala插件的Intellij IDEA已经打包好了,大家直接下载就可以进行Scala及后期的Spark应用程序开发,下载地址:链接:http://pan.baidu.com/s/1sjmS3jJ 密码:rcsy
当然,上面提供的是Linux环境下的Intellij IDEA。

下载完成后,解压到/hadoopLearning目录,得到
这里写图片描述
将其设置到环境变量 vim /etc/profile,添加红色下划线内容
这里写图片描述

然后执行

root@sparkmaster:/hadoopLearning# idea.sh 

启动Intellij IDEA,如下图所示(本机上已经创建过scala工程项目)
这里写图片描述

(1)创建Scala项目

File->new->Project,如下图
这里写图片描述
选择Scala
这里写图片描述
然后next
这里写图片描述
其中Project SDK指定安装的JDK,Scala SDK指定安装的Scala(这里使用的是IDEA自带的scala SDK),这里将项目名称命令为SparkWordCount,然后finish
这里写图片描述

在IDEA中开发应用程序时,常常需要通过一定的文件目录组织进行源码编写,例如源文件目录、测试源文件目录,下面演示在Intellij IDEA的src目录下创建main/scala源文件目录。
直接按F4或右鍵点击工程文件
这里写图片描述

再选择open module setting,打开项目配置,点击src目录,然后右键创建main/scala文件夹,再点击scala文件夹为sources,如下图所示
这里写图片描述

### (2)导入Spark 1.5.0依赖包
直接F4打开Project Structure,然后选择libraries
这里写图片描述
点击上图中的+添加外部依赖包,选择”java”,然后再选择spark-assembly-1.5.0-hadoop2.4.0.jar
这里写图片描述
成功后如下图
这里写图片描述

至此Spark开发环境配置完成

2. Spark应用程序开发

(1) 本地方式执行Spark WordCount程序

在src/main/scala源文件目录中创建一个SparkWordCount 应用程序对象,编辑内容如下:

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount{
  def main(args: Array[String]) {
    //输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS
    if (args.length == 0) {
      System.err.println("Usage: SparkWordCount <inputfile>")
      System.exit(1)
    }
    //以本地线程方式运行,可以指定线程个数,
    //如.setMaster("local[2]"),两个线程执行
    //下面给出的是单线程执行
    val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local")
    val sc = new SparkContext(conf)

    //wordcount操作,计算文件中包含Spark的行数
    val count=sc.textFile(args(0)).filter(line => line.contains("Spark")).count()
    //打印结果
     println("count="+count)
    sc.stop()
  }
}

编译代码,直接Build->Make Project
这里写图片描述
然后编程运行参数,Run->Edit Configurations
这里写图片描述
Main Class输入:SparkWordCount
Program arguments输入:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/README.md
如下图:
这里写图片描述

完成后直接Run->Run或Alt+Shift+F10运行程序,执行结果如下图:
这里写图片描述

(2) Spark集群上执行Spark WordCount程序

将SparkWordCount打包成Jar文件

将程序内容修改如下:

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount{
  def main(args: Array[String]) {
    //输入文件既可以是本地linux系统文件,也可以是其它来源文件,例如HDFS
    if (args.length == 0) {
      System.err.println("Usage: SparkWordCount <inputfile> <outputfile>")
      System.exit(1)
    }

    val conf = new SparkConf().setAppName("SparkWordCount")
    val sc = new SparkContext(conf)

    //rdd2为所有包含Spark的行
    val rdd2=sc.textFile(args(0)).filter(line => line.contains("Spark"))
    //保存内容,在例子中是保存在HDFS上
    rdd2.saveAsTextFile(args(1))
    sc.stop()
  }
}

点击工程SparkWordCount,然后按F4打个Project Structure并选择Artifacts,如下图
这里写图片描述
选择Jar->form modules with dependencies,如下图
这里写图片描述
进入下面的界面这里写图片描述
在main class中,选择SparkWordCount,如下图
这里写图片描述
点击确定后得到如下界面
这里写图片描述

因为后期提交到集群上运行,因此相关jar包都存在,为减小jar包的体积,将spark-assembly-1.5.0-hadoop2.4.0.jar等jar包删除即可,如下图
这里写图片描述
确定后,再点击Build->Build Artifacts
这里写图片描述
生成后的jar文件保存在root@sparkmaster:~/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar# 目录中,如下图:
这里写图片描述

提交集群运行

./spark-submit --master spark://sparkmaster:7077 --class SparkWordCount --executor-memory 1g /root/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar/SparkWordCount.jar hdfs://ns1/README.md hdfs://ns1/SparkWordCountResult

将任务提交到集群:
这里写图片描述

执行结果:
这里写图片描述

HDFS文件已经生成了SparkWordCountResult
这里写图片描述

使用

root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -ls /SparkWordCountResult
root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -cat /SparkWordCountResult/part-00000

查看目录内容,具体结果如下图所示:

这里写图片描述

目录
相关文章
|
6月前
|
IDE Oracle Java
day4:JDK、IntelliJ IDEA的安装和环境变量配置
【7月更文挑战第4天】🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!
247 0
|
6月前
|
Java Maven 开发者
入职必会-开发环境搭建14-IDEA配置Maven
在 IDEA 中配置 Maven 可以帮助开发者更方便地管理项目依赖、构建项目和部署应用程序。要在 IDEA 中配置 Maven,可以按照以下步骤进行。
105 1
入职必会-开发环境搭建14-IDEA配置Maven
|
6月前
|
应用服务中间件
入职必会-开发环境搭建23-IDEA配置Tomcat
IDEA配置Tomcat分为两部分: 1. IDEA集成本地Tomcat 2. IDEA中使用Tomcat部署Web项目 在配置IntelliJ IDEA中的Tomcat时,首先需要打开IDEA,选择菜单中的Run -> Edit Configurations,在左侧菜单中找到+并点击,然后选择Tomcat Server下的Local(注意不要选择错了,下方还有个TomEE Server,不是选这个)。接下来,输入一个自定义的名字作为Tomcat的配置名称,点击Configure...配置Tomcat的安装路径。这样IDEA就配置好了Tomcat。
|
6月前
|
Java 开发工具
入职必会-开发环境搭建05-IDEA使用
本文介绍了IDEA的核心概念,项目创建,模块创建,包的创建,类的创建,代码编写也运行。
入职必会-开发环境搭建05-IDEA使用
|
6月前
|
Shell iOS开发 MacOS
入职必会-开发环境搭建04-IDEA激活
本方法是市面上最简单、方便的JetBrains全家桶激活方法,包含IDEA、PyCharm、CLion、DataGrip、GoLand、PhpStorm、WebStorm均可激活并且支持最新的2023版本。
130 0
入职必会-开发环境搭建04-IDEA激活
|
6月前
|
网络协议 安全 Linux
在IntelliJ IDEA中使用固定公网地址远程SSH连接服务器环境进行开发
在IntelliJ IDEA中使用固定公网地址远程SSH连接服务器环境进行开发
131 2
|
7月前
|
Linux 开发工具 Windows
在WSL2中安装IntelliJ IDEA开发工具
在WSL2中安装IntelliJ IDEA开发工具
683 2
|
7月前
|
IDE Java Scala
IntelliJ IDEA 2023.3 最新变化2
IntelliJ IDEA 2023.3 最新变化
107 1
|
6月前
|
Oracle 关系型数据库 MySQL
入职必会-开发环境搭建17-IDEA连接数据库
IntelliJ IDEA集成了众多插件,方便开发者使用,使用IDEA自带的Database模块就可以很方便的配置、连接数据库,在 IntelliJ IDEA 中连接数据库,可以按照以下步骤进行操作。
213 0
|
6月前
|
IDE Java 开发工具
入职必会-开发环境搭建03-IDEA下载和安装
IntelliJ IDEA(简称IDEA),由JetBrains开发,是一款专为Java、Kotlin、Groovy等语言设计的集成开发环境(IDE)。它具备智能代码编辑、高效调试器、版本控制集成、丰富的插件生态、内置工具与高度定制性等特点,广泛应用于企业级软件、Web应用和移动应用开发。 完成上述步骤,即可开启IDEA的高效开发之旅。