Spark源码阅读环境的准备
Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。
本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。
我的配置:
- JDK :1.7.71
- IDEA:14.0.3
- scala:2.11.5
- sbt :0.13.7
- git :1.9.5
下面列举搭建此环境需要的各个组件:
- IDEA,有两个版本:Ultimate Edition & Community Edition,后者是free的,而且完全能满足学习者所有的需求
- 百度云下载:http://pan.baidu.com/s/1c0CQEn2 http://pan.baidu.com/s/1qWqh99a
- Scala,Spark是用Scala语言写成的,在本地编译执行需要这个包
- 百度云下载:http://pan.baidu.com/s/1hqrJLa8
- SBT,scala工程构建的工具
- 百度云下载:windows下:http://pan.baidu.com/s/1gd1VlIz linux下:http://pan.baidu.com/s/1kTl8c1T
- Git,IDEA自动下载SBT插件时可能会用到的工具
- 百度云下载:http://pan.baidu.com/s/1o6mNOKE (linux下自行使用apt-get或yum进行安装)
- Spark Source Code,Spark源码
- 百度云下载:http://pan.baidu.com/s/1i3Bu4RV
下载各个安装包。
Spark源码阅读环境的安装步骤
安装Scala
完成后,在windows命令行中输入scala
,检查是否识别此命令。
如果不识别,查看环境变量Path中是否有....\scala\bin
(我的电脑右键,属性 -> 高级系统设置 -> 环境变量),没有的手动将Scala文件夹下的bin目录的路径
安装SBT
运行SBT的安装程序,运行完成后,重新打开windows命令行,输入sbt
,检查是否识别此命令。没有的话,手动配置环境变量,添加...\sbt\bin
运行完SBT的安装程序之后,并不意味着完成了sbt的安装,在windows命令放下输入sbt
后,SBT会自动的下载安装它所需要的程序包,请耐心等待全部下载成功。
安装Git
运行Git的安装程序,安装完成后,重新打开windows命令行,检查时候识别git
命令。 (注意:如果在cmd运行git出现丢失libiconv-2.dll的问题时,将Git文件夹下bin\libiconv-2.dll复制到libexec\git-core即可)
安装IDEA
安装IDEA的Scala插件
打开IDEA,在‘Welcome to IntelliJ IDEA’界面的‘Quick Start’栏,点击Configure
,选择Plugins
。
在弹出的窗口中可以看到已安装的插件,现在IDEA默认还没有Scala的插件。需要点击左下角的Install JetBrains plugin...
,在搜索框中输入‘scala’,点击安装。安装完成后可能会要求重启一下IDEA。
解压缩Spark Source Code包
导入Spark工程
在欢迎界面‘Quick Start’栏或者是在主界面的菜单栏File
下,选Import Project
,找到解压之后的spark工程文件夹,OK
。
选择import project from external model
中的SBT project
,(这个选项只有在安装了IDEA的Scala插件才会有)。
下一步,选择Project SDK为JDK,最好勾上Use auto-import
,然后点击Finish
。这时,IDEA会自动下载安装SBT所需的各个包,没有装Git的话可能会报错。
因为Spark是一个比较大的工程,所需的包也很多,这个过程也会特别慢,请耐心等待。
导入完成
导入完成后,自动打开工程,要等一段时间,等待sbt对这个工程进行编译。
2. 在linux下生成再在windows打开
在linux系统下进入spark根目录,运行sbt gen-idea, 在漫长的等待之后即可将整个目录复制到windows下使用intellij idea打开工程!(注意,在运行sbt之前应先配置好jdk、sbt、git,不需要配置scala,sbt会自动下载scala)
已生成好的spark源码包:http://pan.baidu.com/s/1c0hcAHU