备案控制台

开发者社区大数据文章正文

使用 IntelliJ IDEA 导入 Spark 最新源码及编译 Spark 源代码（博主强烈推荐）

2017-11-07 3719

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

前言

　其实啊，无论你是初学者还是具备了有一定spark编程经验，都需要对spark源码足够重视起来。

　　本人，肺腑之己见，想要成为大数据的大牛和顶尖专家，多结合源码和操练编程。

　

准备工作

　1、scala 2.10.4(本地的安装)

Scala的安装（本地）

　　2、Jdk1.7+ 或 jdk1.8+ (本地的安装)

Jdk 1.7*安装并配置

Jdk 1.8*安装并配置

JDK的windows和Linux版本之下载

　　3、IntelliJ IDEA

IntelliJ IDEA（Community版本）的下载、安装和WordCount的初步使用（本地模式和集群模式）

IntelliJ IDEA（Ultimate版本）的下载、安装和WordCount的初步使用（本地模式和集群模式）

Spark源码的编译过程详细解读(各版本)

另外，最后还是建议大家开始先使用 pre-built 的 Spark，对 Spark 的运行、使用方法有所了解，编写了一些 Spark 应用程序后再展开源代码的阅读，并尝试修改源码，进行手动编译。

总体流程

　　1、从 Github 导入 Spark 工程

打开IntelliJ IDEA 后，在菜单栏中选择 VCS→Check out from Version Control→Git，之后在 Git Repository URL 中填入 Spark 项目的地址，并指定好本地路径，如下图所示。

https://github.com/apache/spark.git

或者，我们可以直接先下载好，

比如我这里，已经下载好了

解压，

提前，先准备好

对于spark源码的目录结构

　　1、编译相关 : sbt 、assembly、project

　　2、spark核心：core

　　3、Spark Lib ： streaming 、 sql 、graphx 、mllib

　　4、运行脚本和配置： bin 、sbin 、conf

　　5、虚拟化 : ec2 、docker 、dev

　　6、式例： examples 、data

　　7、部署相关： yarn

　　8、python支持： python

　　9、repl ： repl

　　10、 3pp : externals

现在，我开始，进入spark源码导入工作。

先来关闭，已有的工程。

File -> Close Project

得到，如下

选择，Import Project

这里，为了日后的spark源码阅读环境的方便和开发

安装之后的几个常用设置：

　　1、界面字体大小的设置

可见，界面字体的效果

　　2、代码字体的设置

3、因我们平常，用习惯了eclipse，快捷键，设置为我们平常，eclipse的风格。

完成

简单，带领，如何巧看spark源码？

这里，为了避免一个不利的阅读，

放到D盘的根目录下，

设置行号

其他的源码，首先，Ctrl + Shift + R，然后，自行去阅读。

建议，在理解概念，真的，可以拿源码来帮助理解！

总结

所以啊，源码 + 官网，是黄金组合。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5881893.html，如需转载请自行联系原作者

文章标签：

分布式计算

Spark

Python

大数据

Java

关键词：

apache spark编译

Idea导入

Idea编译

Idea Intellij

apache spark导入

技术小哥哥

目录

相关文章

武子康

|

2月前

|

分布式计算大数据 Java

大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行梦开始的地方

大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行梦开始的地方

武子康

42 1 1

大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行梦开始的地方

敏叔V587

|

7月前

|

分布式计算 Java Scala

Spark-Adaptive编译和打包

Spark-Adaptive编译和打包

敏叔V587

38 0 0

Spark-Adaptive编译和打包

小竹笋

|

6月前

|

分布式计算资源调度 Java

Scala+Spark+Hadoop+IDEA实现WordCount单词计数，上传并执行任务（简单实例-下）

Scala+Spark+Hadoop+IDEA实现WordCount单词计数，上传并执行任务（简单实例-下）

小竹笋

76 0 0

小竹笋

|

6月前

|

分布式计算 Hadoop Scala

Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数（简单实例-上）

Scala +Spark+Hadoop+Zookeeper+IDEA实现WordCount单词计数（简单实例-上）

小竹笋

60 0 0

敏叔V587

|

7月前

|

分布式计算 Java Hadoop

Spark3.3.0源码编译补充篇-抓狂的证书问题

Spark3.3.0源码编译补充篇-抓狂的证书问题

敏叔V587

48 0 0

敏叔V587

|

7月前

|

分布式计算 Java 测试技术

肝Spark源码的若干骚操作

肝Spark源码的若干骚操作

敏叔V587

53 0 0

敏叔V587

|

7月前

|

分布式计算安全 Java

Spark 编译出现 InvalidAlgorithmParameterException: the trustAnchors parameter must be non-empty

Spark 编译出现 InvalidAlgorithmParameterException: the trustAnchors parameter must be non-empty

敏叔V587

188 0 0

敏叔V587

|

7月前

|

分布式计算 Java 程序员

Spark3.0源码编译打包

Spark3.0源码编译打包

敏叔V587

44 0 0

kng32f3vbngrm

|

7月前

|

SQL 分布式计算 Java

IDEA 打包 Spark 项目 POM 文件依赖

这是一个 Maven POM 示例，用于构建一个使用 Spark 与 Hive 的项目，目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖，包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包，生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围，如 `compile`（默认），`provided`，`runtime`，`test` 和 `system`。

kng32f3vbngrm

126 0 0

孙玉洁-47170

|

7月前

|

分布式计算监控 Java

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习---day06、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

113 2 2

热门文章

最新文章

这款免费 IDEA 插件让你开发 Spring 程序更简单

【开发IDE升级】如何对IDEA版本进行升级

使用idea中的Live Templates自定义自动生成Spring所需的XML配置文件格式

分享干货：idea常用快捷键分类总结（适合速查~~建议收藏♥）

【Spring配置】idea编码格式导致注解汉字无法保存

在idea中新建完springboot项目的时候遇到问题(右键没有class选择；控制台报错：Could not transfer artifact org.apache.tomcat.embed:tomcat-embed-core:jar:9.0.60 from/to central ....)

Maven配置以及IDEA设置（Cannot resolve plugin org.apache.maven.plugins:报错）

IDEA上移除项目(逻辑删除)

IDEA13+Maven + Jetty-plugin 调试项目

idea 打不开，电脑上下了多个IDEA，新下的IDEA双击打不开，新版IDEA打不开，超实用简单解决办法

【赵渝强老师】Spark中的RDD

【赵渝强老师】Spark Streaming中的DStream

【赵渝强老师】Spark SQL的数据模型：DataFrame

【赵渝强老师】Spark生态圈组件

Spark Standalone与YARN的区别？

如何优化Spark中的shuffle操作？

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

ClickHouse与大数据生态集成：Spark & Flink 实战

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

阿里云平台上进行Java程序的编译与运行

基于 IntelliJ IDEA 插件部署微服务应用

Python新手入门

下一篇

DataWorks售前咨询