备案控制台

开发者社区开发与运维文章正文

《深入理解Spark:核心思想与源码分析》——1.5节小结

2017-05-02 1712

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第1章，第1.5节小结，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看

1.5　小结
本章通过引导大家在Linux操作系统下搭建基本的执行环境，并且介绍spark-shell等脚本的执行，来帮助读者由浅入深地进行Spark源码的学习。由于目前多数开发工作都在Windows系统下进行，并且Eclipse有最广大的用户群，即便是一些开始使用IntelliJ的用户对Eclipse也不陌生，所以在Windows环境下搭建源码阅读环境时，选择这些最常用的工具，能降低读者的学习门槛，并且替大家节省时间。

文章标签：

Windows

Linux

分布式计算

Spark

Android开发

关键词：

apache spark源码分析

apache spark核心思想源码分析

apache spark核心思想

apache spark核心思想源码分析小结

华章计算机

目录

相关文章

明惠

|

Apache 分布式计算 Spark

Apache Spark Delta Lake 事务日志实现源码分析

Apache Spark Delta Lake 事务日志实现源码分析我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理，原子性保证，本文为了学习的目的，带领大家从源码级别来看看 Delta Lake 事务日志的实现。

明惠

2024 0 0

王知无

|

分布式计算 Java Shell

Spark源码分析之Spark Shell（上）

终于开始看Spark源码了，先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式来寻找源码入口。

王知无

933 0 0

thinktothings

Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)

Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)

thinktothings

1284 0 0

thinktothings

|

分布式计算 Spark 索引

Spark2.4.0源码分析之WorldCount ShuffleMapTask处理(八)

- 理解Executor中是如何调用Task的过程 - 理解ShuffleMapTask是处理过程

thinktothings

1613 0 0

thinktothings

|

调度算法

Spark2.4.0源码分析之WorldCount 任务调度器(七)

- 理解TaskSet是如何提交到任务调度器池，任务集如何被调度 - 理解Worker可用资源算法，Worker可用资源分配任务调度池中的任务 - 任务发送给executor去执行

thinktothings

888 0 0

thinktothings

|

分布式计算 Spark Hadoop

Spark2.4.0源码分析之WorldCount Stage提交(DAGScheduler)(六)

- 理解ShuffuleMapStage是如何转化为ShuffleMapTask并作为TaskSet提交 - 理解ResultStage是如何转化为ResultTask并作为TaskSet提交

thinktothings

1172 0 0

thinktothings

|

分布式计算 Apache Spark

Spark2.4.0源码分析之WorldCount Stage提交顺序(DAGScheduler)(五)

理解FinalStage是如何按stage从前到后依次提交顺序

thinktothings

2215 0 0

thinktothings

|

缓存分布式计算 Scala

Spark2.4.0源码分析之WorldCount Stage划分(DAGScheduler)(四)

理解FinalStage的转化(即Stage的划分)

thinktothings

888 0 0

thinktothings

|

分布式计算 Spark

Spark2.4.0源码分析之WorldCount 事件循环处理器(三)

理解DAG事件循环处理器处理事件流程

thinktothings

1041 0 0

thinktothings

|

分布式计算

Spark2.4.0源码分析之WorldCount 触发作业提交(二)

Final RDD作为参数，通过RDD.collect()函数触发作业提交

thinktothings

1369 0 0

热门文章

最新文章

Spark-ML-01-小试spark分析离线商品信息

大数据平台搭建（容器环境）——Spark3.X on Yarn安装配置

Spark-神奇的共享变量

[Spark][Python]Mapping Single Rows to Multiple Pairs

[Spark][Python]Spark Python 索引页

工作经验分享：Spark调优【优化后性能提升1200%】

Spark Job的提交与task本地化分析（源码阅读八）

Spark-构建基于Spark的推荐引擎

Spark-spark streaming

spark 3.1.x支持（兼容）hive 1.2.x以及hadoop cdh版本的尝试

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

如何解决Spark在深度学习中的资源消耗问题？

Spark在深度学习中的优缺点是什么？

使用Spark进行机器学习

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【Spark】Spark基础教程知识点

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置，报错如何解决

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

AI助理直击要害，从繁复中提炼精华——使用CDN加速访问OSS存储的图片