深入理解Spark：核心思想与源码分析. 1.4　Spark源码编译与调试-阿里云开发者社区

深入理解Spark：核心思想与源码分析. 1.4　Spark源码编译与调试

2017-05-02 1452

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.4　Spark源码编译与调试

1.下载Spark源码

首先，访问Spark官网http://spark.apache.org/，如图1-18所示。

图1-18　Spark官网

单击Download Spark按钮，在下一个页面找到git地址，如图1-19所示。

图1-19　Spark官方git地址

打开Git Bash工具，输入git clone git://github.com/apache/spark.git命令将源码下载到本地，如图1-20所示。

图1-20　下载Spark源码

2.构建Scala应用

使用cmd命令行进到Spark根目录，执行sbt命令。会下载和解析很多jar包，要等很长时间，笔者大概花了一个多小时才执行完。

3.使用sbt生成Eclipse工程文件

等sbt提示符（>）出现后，输入Eclipse命令，开始生成Eclipse工程文件，也需要花费很长时间，笔者本地大致花了40分钟。完成时的状况如图1-21所示。

图1-21　sbt编译过程

现在我们查看Spark下的子文件夹，发现其中都生成了.project和.classpath文件。比如mllib项目下就生成了.project和.classpath文件，如图1-22所示。

图1-22　sbt生成的项目文件

4.编译Spark源码

由于Spark使用Maven作为项目管理工具，所以需要将Spark项目作为Maven项目导入Eclipse中，如图1-23所示。

单击Next按钮进入下一个对话框，如图1-24所示。

图1-23　导入Maven项目

全选所有项目，单击Finish按钮，这样就完成了导入，如图1-25所示。

导入完成后，需要设置每个子项目的build path。右击每个项目，选择“Build Path”→ “Configure Build Path…”，打开Java Build Path界面，如图1-26所示。

图1-26　Java编译目录

单击Add External JARs按钮，将Spark项目下的lib_managed文件夹的子文件夹bundles和jars内的jar包添加进来。

lib_managed/jars文件夹下有很多打好的spark的包，比如：spark-catalyst_2.10-1.3.2-SNAPSHOT.jar。这些jar包有可能与你下载的Spark源码的版本不一致，导致你在调试源码时，发生jar包冲突。所以请将它们排除出去。

Eclipse在对项目编译时，笔者本地出现了很多错误，有关这些错误的解决建议参见附录H。所有错误解决后运行mvn clean install，如图1-27所示。

5.调试Spark源码

以Spark源码自带的JavaWordCount为例，介绍如何调试Spark源码。右击JavaWord-Count.java，选择“Debug As”→“Java Application”即可。如果想修改配置参数，右击JavaWordCount.java，选择“Debug As”→“Debug Configurations…”，从打开的对话框中选择JavaWordCount，在右侧标签可以修改Java执行参数、JRE、classpath、环境变量等配置，如图1-28所示。

读者也可以在Spark源码中设置断点，进行跟踪调试。

深入理解Spark：核心思想与源码分析. 1.4　Spark源码编译与调试

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深入理解Spark：核心思想与源码分析. 1.4 Spark源码编译与调试

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

深入理解Spark：核心思想与源码分析. 1.4　Spark源码编译与调试