Spark开发环境的搭建(一)-阿里云开发者社区

Spark开发环境的搭建(一)

2024-05-29 125

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark开发环境的搭建(一)

大概从这部分开始，我们讨论的方式画风会变成 "show me your code"。天才第一步，雀氏纸尿裤,今天我们把基础的开发环境搭建起来,经历一把从编码干到集群跑起的过程。

spark核心部分是scala语言写的，本身的项目是sbt管理项目依赖的,很多同学对sbt感到陌生,但是maven肯定是熟悉,sbt是简化了maven的构建配置,所以我们是可以直接使用maven来构建的。

我这边选用的工具是官网提供的Scala IDE,下载地址:

http://scala-ide.org/download/sdk.html,另外我们打开连接之后可以看到有Jdk的要求(图一):

图一：jdk的要求

所以，我们继续准备jdk,从requirements点击去便是jdk的下载地址...省掉这部分,java程序开发基础必修。安装好之后我们打开建立项目，我这边已经建立了一个spark的项目，先看下效果，有个期待^^

图二：spark项目导入的样子

看到这个很多人肯定很熟悉，其实就是eclipse的东西嘛。再仔细看看,发现其实里面写着的是scala代码来着，这个就是我们要的效果，java那部分还是和原来一样，但是同时也支持scala代码的编写。

下面我们来构建这个工程,这个是一个普通的maven工程,maven里面最头痛的就是包的依赖。不知道用什么包，什么版本。其实官网里面给了很多例子项目，只不过是和其他源码一起的，我们需要把这部分抠出来，这块便构成了我们最最权威的spark工程。这个事情之前在讨论yarn的时候做过，这次把方法给出来。

我们把spark源码解压,可以看到里面有个example的示例项目，

图三：源码中的examples的例子

我们用记事本打开examples/pom.xml文件，可以看到里面的内容

图四：pom.xml文件结构

可以看到examples其实是作为一个 spark 的模块被构建的,我们再查看里面的依赖:

图五：spark中的依赖

看到了么，里面有些依赖给了版本，但是用的是变量的方式给的，有些依赖是直接就没有给版本，这部分是因为在parent上面定义过的，所以在子模块中直接就引用了。有两种办法，我们可以去parent中找到，复制过来添加上，完全可以，就是要有点耐心；我们用第二招,第二招是我们解析出这部分依赖,mvn dependency:tree命令可以帮我们把依赖解析成一颗文本树。我们在目录下面调出控制台命令,注意目录不要弄错了，使用命令进行解析,图六