编译CDH Spark源代码

2016-04-08 2586

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文以Cloudera维护的Spark分支项目为例，记录跟新Spark分支以及编译Spark源代码的过程。

下载代码

在Github上fork Cloudera维护的Spark项目到自己的github账号里，对应的地址为https://github.com/javachen/spark。

下载代码：

$ git clone https://github.com/javachen/spark

然后，切换到最新的分支，当前为 cdh5-1.3.0_5.4.0。

$ cd spark
$ git checkout cdh5-1.3.0_5.4.0

查看当前分支：

⇒  git branch
* cdh5-1.3.0_5.4.0
  master

如果spark发布了新的版本，需要同步到我自己维护的spark项目中，可以按以下步骤进行操作:

# 添加远程仓库地址
$ git remote add cdh git@github.com:cloudera/spark.git

# 抓取远程仓库更新：
$ git fetch cdh

# 假设cloudera发布了新的版本 cdh/cdh5-1.3.0_5.4.X
$ git checkout -b cdh5-1.3.0_5.4.X cdh/cdh5-1.3.0_5.4.X

# 切换到新下载的分支 
$ git checkout cdh5-1.3.0_5.4.X

# 将其提交到自己的远程仓库：
$ git push origin cdh5-1.3.0_5.4.X:cdh5-1.3.0_5.4.X

编译

安装 zinc

在mac上安装zinc：

$ brew install zinc

使用maven编译

指定hadoop版本为2.6.0-cdh5.4.0，并集成yarn和hive：

$ export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
$ mvn -Pyarn -Dhadoop.version=2.6.0-cdh5.4.0 -Phive -DskipTests clean package

在CDH的spark中，要想集成hive-thriftserver进行编译，需要修改 pom.xml 文件，添加一行 sql/hive-thriftserver：

<modules>
    <module>core</module>
    <module>bagel</module>
    <module>graphx</module>
    <module>mllib</module>
    <module>tools</module>
    <module>streaming</module>
    <module>sql/catalyst</module>
    <module>sql/core</module>
    <module>sql/hive</module>
    <module>sql/hive-thriftserver</module> <!--添加的一行-->
    <module>repl</module>
    <module>assembly</module>
    <module>external/twitter</module>
    <module>external/kafka</module>
    <module>external/flume</module>
    <module>external/flume-sink</module>
    <module>external/zeromq</module>
    <module>external/mqtt</module>
    <module>examples</module>
  </modules>

然后，再执行：

$ export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
$ mvn -Pyarn -Dhadoop.version=2.6.0-cdh5.4.0 -Phive -Phive-thriftserver -DskipTests clean package

运行测试用例：

$ mvn -Pyarn -Dhadoop.version=2.6.0-cdh5.4.0 -Phive  test

运行java8测试：

$ mvn install -DskipTests -Pjava8-tests

使用sbt编译

$ build/sbt -Pyarn -Dhadoop.version=2.6.0-cdh5.4.0 -Phive assembly

生成压缩包

$ ./make-distribution.sh

排错

Unable to find configuration file at location scalastyle-config.xml 异常

在idea中使用maven对examples模块运行package或者install命令会出现 Unable to find configuration file at location scalastyle-config.xml异常，解决办法是将根目录下的scalastyle-config.xml拷贝到examples目录下去，这是因为pom.xml中定义的是scalastyle-maven-plugin插件从maven运行的当前目录查找该文件。

<plugin>
    <groupId>org.scalastyle</groupId>
    <artifactId>scalastyle-maven-plugin</artifactId>
    <version>0.4.0</version>
    <configuration>
      <verbose>false</verbose>
      <failOnViolation>true</failOnViolation>
      <includeTestSourceDirectory>false</includeTestSourceDirectory>
      <failOnWarning>false</failOnWarning>
      <sourceDirectory>${basedir}/src/main/scala</sourceDirectory>
      <testSourceDirectory>${basedir}/src/test/scala</testSourceDirectory>
      <configLocation>scalastyle-config.xml</configLocation>
      <outputFile>scalastyle-output.xml</outputFile>
      <outputEncoding>UTF-8</outputEncoding>
    </configuration>
    <executions>
      <execution>
        <phase>package</phase>
        <goals>
          <goal>check</goal>
        </goals>
      </execution>
    </executions>
</plugin>

编译CDH Spark源代码

下载代码

编译

安装 zinc

使用maven编译

使用sbt编译

生成压缩包

排错

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

编译CDH Spark源代码

下载代码

编译

安装 zinc

使用maven编译

使用sbt编译

生成压缩包

排错

热门文章

最新文章

相关课程

相关电子书

相关实验场景