《Spark大数据分析实战》——2.1节Spark应用开发环境配置-阿里云开发者社区

《Spark大数据分析实战》——2.1节Spark应用开发环境配置

2017-05-02 2064

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《Spark大数据分析实战》一书中的第2章，第2.1节Spark应用开发环境配置，作者高彦杰　倪亚宇，更多章节内容可以访问云栖社区“华章社区”公众号查看

2.1　Spark应用开发环境配置
Spark的开发可以通过Intellij或者Eclipse IDE进行，在环境配置的开始阶段，还需要安装相应的Scala插件。
2.1.1　使用Intellij开发Spark程序
本节介绍如何使用Intellij IDEA构建Spark开发环境和源码阅读环境。由于Intellij对Scala的支持更好，目前Spark开发团队主要使用Intellij作为开发环境。
1.?配置开发环境
（1）安装JDK
用户可以自行安装JDK8。官网地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html。
下载后，如果在Windows下直接运行安装程序，会自动配置环境变量，安装成功后，在CMD的命令行下输入Java，有Java版本的日志信息提示则证明安装成功。
如果在Linux下安装，下载JDK包解压缩后，还需要配置环境变量。
在/etc/prof?ile文件中，配置环境变量：

export JAVA_HOME=/usr/java/jdk1.8
export JAVA_BIN=/usr/java/jdk1.8/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME JAVA_BIN PATH CLASSPATH

（2）安装Scala
Spark内核采用Scala进行开发，上层通过封装接口提供Java和Python的API，在进行开发前需要配置好Scala的开发包。
Spark对Scala的版本有约束，用户可以在Spark的官方下载界面看到相应的Scala版本号。下载指定的Scala包，官网地址：http://www.scala-lang.org/download/。
（3）安装Intellij IDEA
用户可以下载安装最新版本的Intellij，官网地址：http://www.jetbrains.com/idea/download/。
目前Intellij最新的版本中已经可以支持新建SBT工程，安装Scala插件，可以很好地支持Scala开发。
（4）Intellij中安装Scala插件
在Intellij菜单中选择“Conf?igure”，在下拉菜单中选择“Plugins”，再选择“Browse repositories”，输入“Scala”搜索插件（如图2-1所示），在弹出的对话框中单击“install”按钮，重启Intellij。
2.?配置Spark应用开发环境
1）用户在Intellij IDEA中创建Scala Project, SparkTest。
2）选择菜单中的“File”→“project structure”→“Libraries”命令，单击“+”，导入“spark-assembly_2.10-1.0.0-incubating-hadoop2.2.0.jar”。
只需导入该jar包，该包可以通过在Spark的源码工程下执行“sbt/sbt assembly”命令生成，这个命令相当于将Spark的所有依赖包和Spark源码打包为一个整体。
在“assembly/target/scala-2.10.4/”目录下生成：spark-assembly-1.0.0-incubating-hadoop2.2.0.jar。
3）如果IDE无法识别Scala库，则需要以同样方式将Scala库的jar包导入。之后就可以开始开发Spark程序。如图2-2所示，本例将Spark默认的示例程序SparkPi复制到文件。

64a5cff9b0fa9e16d0260c4fc272c3382135c0be

3.?运行Spark程序
（1）本地运行
编写完scala程序后，可以直接在Intellij中，以本地Local模式运行（如图2-3所示），方法如下。

e54104e29dcd6535325c8c11ab23dfb25df4fa40

在Intellij中的选择“Run”→“Debug Conf?iguration”→“Edit Conf?igurations”命令。在“Program arguments”文本框中输入main函数的输入参数local。然后右键选择需要运行的类，单击“Run”按钮运行。
（2）集群上运行Spark应用jar包
如果想把程序打成jar包，通过命令行的形式运行在Spark集群中，并按照以下步骤操作。
1）选择“File”→“Project Structure”，在弹出的对话框中选择“Artifact”→
“Jar”→“From Modules with dependencies”命令。
2）在选择“From Modules with dependencies”之后弹出的对话框中，选择Main函数，同时选择输出jar位置，最后单击“OK”按钮。
具体如图2-4～图2-6所示。
在图2-5中选择需要执行的Main函数。
在图2-6界面选择依赖的jar包。

2ccbcad1b66b8a4d9159c8b97bb4dc2a715c0e60

bb3928036dfb45173671c16c5067a542f64e8530

在主菜单选择“Build”→“Build Artifact”命令，编译生成jar包。
3）将生成的jar包SparkTest.?jar在集群的主节点，通过下面命令执行：
java -jar SparkTest.jar
用户可以通过上面的流程和方式通过Intellij作为集成开发环境进行Spark程序的开发。
2.1.2　使用SparkShell进行交互式数据分析
如果是运行Spark Shell，那么会默认创建一个SparkContext，命名为sc，所以不需要在Spark Shell创建新的SparkContext，SparkContext是应用程序的上下文，调度整个应用并维护元数据信息。在运行Spark Shell之前，可以设定参数MASTER，将Spark应用提交到MASTER指向的相应集群或者本地模式执行，集群方式运行的作业将会分布式地运行，本地模式执行的作业将会通过单机多线程方式运行。可以通过参数ADD_JARS把JARS添加到classpath，用户可以通过这种方式添加所需的第三方依赖库。
如果想spakr-shell在本地4核的CPU运行，需要如下方式启动：

$MASTER=local[4] ./spark-shell
这里的4是指启动4个工作线程。
如果要添加JARS，代码如下：
$MASTER=local[4]  ADD_JARS=code.jar ./spark-shell
在spark-shell中，输入下面代码，读取dir文件：
scala>val text=sc.textFile("dir")
输出文件中有多少数据项，则可用：
scala>text.count

按键，即可运行程序。
通过以上介绍，用户可以了解如何使用Spark Shell进行交互式数据分析。
对于逻辑较为复杂或者运行时间较长的应用程序，用户可以通过本地Intellij等IDE作为集成开发环境进行应用开发与打包，最终提交到集群执行。对于执行时间较短的交互式分析作业，用户可以通过Spark Shell进行相应的数据分析。

《Spark大数据分析实战》——2.1节Spark应用开发环境配置

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《Spark大数据分析实战》——2.1节Spark应用开发环境配置

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景