Spark修炼之道（进阶篇）——Spark入门到精通：第三节 Spark Intellij IDEA开发环境搭建-阿里云开发者社区

Spark修炼之道（进阶篇）——Spark入门到精通：第三节 Spark Intellij IDEA开发环境搭建

2015-09-19 6220

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 作者：周志湖网名：摇摆少年梦微信号：zhouzhihubeyond本节主要内容Intellij IDEA 14.1.4开发环境配置Spark应用程序开发1. Intellij IDEA 14.1.4开发环境配置Intellij IDEA 功能十分强大，能够开发JAVA、Scala等相关应用程序，在依赖管理智能提示等方面做到了极致，大家可

作者：周志湖
网名：摇摆少年梦
微信号：zhouzhihubeyond

本节主要内容

Intellij IDEA 14.1.4开发环境配置
Spark应用程序开发

1. Intellij IDEA 14.1.4开发环境配置

Intellij IDEA 功能十分强大，能够开发JAVA、Scala等相关应用程序，在依赖管理
智能提示等方面做到了极致，大家可以到:http://www.jetbrains.com/idea/download/下载，目前有两种：Ultimate Edition Free 30-day trial；Community Edition FREE。Ultimate版本是商业软件，需要付费，Community 版为免费版，足够平时日常开发需要。最新的版是 Intellij IDEA 14.1.4，但Intellij IDEA 没有自带scala开发插件，需要手功安装，但本人测试的时候发现，直接在Intellij IDEA中装很难装成功（个中原因大家懂得)，为此本人将带有Scala插件的Intellij IDEA已经打包好了，大家直接下载就可以进行Scala及后期的Spark应用程序开发，下载地址：链接：http://pan.baidu.com/s/1sjmS3jJ 密码：rcsy
当然，上面提供的是Linux环境下的Intellij IDEA。

下载完成后，解压到/hadoopLearning目录，得到
这里写图片描述
将其设置到环境变量 vim /etc/profile，添加红色下划线内容

然后执行

root@sparkmaster:/hadoopLearning# idea.sh

启动Intellij IDEA，如下图所示（本机上已经创建过scala工程项目)
这里写图片描述

（1）创建Scala项目

File->new->Project，如下图
这里写图片描述
选择Scala

然后next

其中Project SDK指定安装的JDK，Scala SDK指定安装的Scala（这里使用的是IDEA自带的scala SDK)，这里将项目名称命令为SparkWordCount，然后finish

在IDEA中开发应用程序时，常常需要通过一定的文件目录组织进行源码编写，例如源文件目录、测试源文件目录，下面演示在Intellij IDEA的src目录下创建main/scala源文件目录。
直接按F4或右鍵点击工程文件
这里写图片描述

再选择open module setting，打开项目配置，点击src目录，然后右键创建main/scala文件夹，再点击scala文件夹为sources，如下图所示
这里写图片描述

### （2）导入Spark 1.5.0依赖包
直接F4打开Project Structure，然后选择libraries
这里写图片描述
点击上图中的+添加外部依赖包，选择”java”，然后再选择spark-assembly-1.5.0-hadoop2.4.0.jar

成功后如下图

至此Spark开发环境配置完成

2. Spark应用程序开发

(1) 本地方式执行Spark WordCount程序

在src/main/scala源文件目录中创建一个SparkWordCount 应用程序对象，编辑内容如下：

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount{
  def main(args: Array[String]) {
    //输入文件既可以是本地linux系统文件，也可以是其它来源文件，例如HDFS
    if (args.length == 0) {
      System.err.println("Usage: SparkWordCount <inputfile>")
      System.exit(1)
    }
    //以本地线程方式运行，可以指定线程个数，
    //如.setMaster("local[2]")，两个线程执行
    //下面给出的是单线程执行
    val conf = new SparkConf().setAppName("SparkWordCount").setMaster("local")
    val sc = new SparkContext(conf)

    //wordcount操作，计算文件中包含Spark的行数
    val count=sc.textFile(args(0)).filter(line => line.contains("Spark")).count()
    //打印结果
     println("count="+count)
    sc.stop()
  }
}

编译代码，直接Build->Make Project
这里写图片描述
然后编程运行参数，Run->Edit Configurations

Main Class输入：SparkWordCount
Program arguments输入：/hadoopLearning/spark-1.5.0-bin-hadoop2.4/README.md
如下图：

完成后直接Run->Run或Alt+Shift+F10运行程序，执行结果如下图：
这里写图片描述

(2) Spark集群上执行Spark WordCount程序

将SparkWordCount打包成Jar文件

将程序内容修改如下：

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount{
  def main(args: Array[String]) {
    //输入文件既可以是本地linux系统文件，也可以是其它来源文件，例如HDFS
    if (args.length == 0) {
      System.err.println("Usage: SparkWordCount <inputfile> <outputfile>")
      System.exit(1)
    }

    val conf = new SparkConf().setAppName("SparkWordCount")
    val sc = new SparkContext(conf)

    //rdd2为所有包含Spark的行
    val rdd2=sc.textFile(args(0)).filter(line => line.contains("Spark"))
    //保存内容，在例子中是保存在HDFS上
    rdd2.saveAsTextFile(args(1))
    sc.stop()
  }
}

点击工程SparkWordCount，然后按F4打个Project Structure并选择Artifacts，如下图
这里写图片描述
选择Jar->form modules with dependencies，如下图

进入下面的界面
在main class中，选择SparkWordCount，如下图

点击确定后得到如下界面

因为后期提交到集群上运行，因此相关jar包都存在，为减小jar包的体积，将spark-assembly-1.5.0-hadoop2.4.0.jar等jar包删除即可，如下图
这里写图片描述
确定后，再点击Build->Build Artifacts

生成后的jar文件保存在root@sparkmaster:~/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar# 目录中，如下图：

提交集群运行

./spark-submit --master spark://sparkmaster:7077 --class SparkWordCount --executor-memory 1g /root/IdeaProjects/SparkWordCount/out/artifacts/SparkWordCount_jar/SparkWordCount.jar hdfs://ns1/README.md hdfs://ns1/SparkWordCountResult

将任务提交到集群：
这里写图片描述

执行结果：
这里写图片描述

HDFS文件已经生成了SparkWordCountResult
这里写图片描述

使用

root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -ls /SparkWordCountResult
root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# hadoop dfs -cat /SparkWordCountResult/part-00000

查看目录内容，具体结果如下图所示：

这里写图片描述

Spark修炼之道（进阶篇）——Spark入门到精通：第三节 Spark Intellij IDEA开发环境搭建

本节主要内容

1. Intellij IDEA 14.1.4开发环境配置

（1）创建Scala项目

2. Spark应用程序开发

(1) 本地方式执行Spark WordCount程序

(2) Spark集群上执行Spark WordCount程序

将SparkWordCount打包成Jar文件

提交集群运行

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark修炼之道（进阶篇）——Spark入门到精通：第三节 Spark Intellij IDEA开发环境搭建

本节主要内容

1. Intellij IDEA 14.1.4开发环境配置

（1）创建Scala项目

2. Spark应用程序开发

(1) 本地方式执行Spark WordCount程序

(2) Spark集群上执行Spark WordCount程序

将SparkWordCount打包成Jar文件

提交集群运行

热门文章

最新文章

相关课程

相关电子书

相关实验场景