备案控制台

开发者社区华章出版社文章正文

《深入理解Spark:核心思想与源码分析》——2.5节小结

2017-05-02 1445

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的第2章，第2.5节小结，作者耿嘉安，更多章节内容可以访问云栖社区“华章社区”公众号查看

2.5　小结
每项技术的诞生都会由某种社会需求所驱动，Spark正是在实时计算的大量需求下诞生的。Spark借助其优秀的处理能力、可用性高、丰富的数据源支持等特点，在当前大数据领域变得火热，参与的开发者也越来越多。Spark经过几年的迭代发展，如今已经提供了丰富的功能。笔者相信，Spark在未来必将产生更耀眼的火花。

文章标签：

大数据

分布式计算

Spark

关键词：

apache spark源码分析

apache spark核心思想源码分析

apache spark核心思想

apache spark核心思想源码分析小结

华章计算机

目录

相关文章

明惠

|

Apache 分布式计算 Spark

Apache Spark Delta Lake 事务日志实现源码分析

Apache Spark Delta Lake 事务日志实现源码分析我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理，原子性保证，本文为了学习的目的，带领大家从源码级别来看看 Delta Lake 事务日志的实现。

明惠

2005 0 0

王知无

|

分布式计算 Java Shell

Spark源码分析之Spark Shell（上）

终于开始看Spark源码了，先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东，其实里面还是有很多知识点的。另外，从启动脚本入手，是寻找代码入口最简单的方法，很多开源框架，其实都可以通过这种方式来寻找源码入口。

王知无

922 0 0

thinktothings

Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)

Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)

thinktothings

1274 0 0

thinktothings

|

分布式计算 Spark 索引

Spark2.4.0源码分析之WorldCount ShuffleMapTask处理(八)

- 理解Executor中是如何调用Task的过程 - 理解ShuffleMapTask是处理过程

thinktothings

1607 0 0

thinktothings

|

调度算法

Spark2.4.0源码分析之WorldCount 任务调度器(七)

- 理解TaskSet是如何提交到任务调度器池，任务集如何被调度 - 理解Worker可用资源算法，Worker可用资源分配任务调度池中的任务 - 任务发送给executor去执行

thinktothings

883 0 0

thinktothings

|

分布式计算 Spark Hadoop

Spark2.4.0源码分析之WorldCount Stage提交(DAGScheduler)(六)

- 理解ShuffuleMapStage是如何转化为ShuffleMapTask并作为TaskSet提交 - 理解ResultStage是如何转化为ResultTask并作为TaskSet提交

thinktothings

1164 0 0

thinktothings

|

分布式计算 Apache Spark

Spark2.4.0源码分析之WorldCount Stage提交顺序(DAGScheduler)(五)

理解FinalStage是如何按stage从前到后依次提交顺序

thinktothings

2204 0 0

thinktothings

|

缓存分布式计算 Scala

Spark2.4.0源码分析之WorldCount Stage划分(DAGScheduler)(四)

理解FinalStage的转化(即Stage的划分)

thinktothings

877 0 0

thinktothings

|

分布式计算 Spark

Spark2.4.0源码分析之WorldCount 事件循环处理器(三)

理解DAG事件循环处理器处理事件流程

thinktothings

1036 0 0

thinktothings

|

分布式计算

Spark2.4.0源码分析之WorldCount 触发作业提交(二)

Final RDD作为参数，通过RDD.collect()函数触发作业提交

thinktothings

1359 0 0

华章出版社

热门文章

最新文章

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

9.24直播预告｜DLA Serverless Spark技术解析-让您的Spark弹起来

Spark Core概念学习系列之Spark Core（十四）

Spark-理解RDD

附录A Spark2.1核心工具类Utils

Mac安装Spark+Spark基本功能

Spark-ML-01-小试spark分析离线商品信息

Spark-神奇的共享变量

Spark shuffle详细过程

spark集群配置

如何解决Spark在深度学习中的资源消耗问题？

Spark在深度学习中的优缺点是什么？

使用Spark进行机器学习

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【Spark】Spark基础教程知识点

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置，报错如何解决

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

[AIGC大数据基础] Spark 入门

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

对象存储 OSS 如何创建 bucket|学习笔记