《深入理解Spark:核心思想与源码分析》——导读

简介: 本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的目录,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看

本节书摘来自华章社区《深入理解Spark:核心思想与源码分析》一书中的目录,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看


4597c422435dc8b1e3fdc012a7a32e6180675cca

目 录

前言
准 备 篇
第1章 环境准备
1.1 运行环境准备
1.2 Spark初体验
1.3 阅读环境准备
1.4 Spark源码编译与调试
1.5 小结
第2章 Spark设计理念与基本架构
2.1 初识Spark
2.2 Spark基础知识
2.3 Spark基本设计思想
2.4 Spark基本架构
2.5 小结
核心设计篇
第3章 SparkContext的初始化
3.1 SparkContext概述
3.2 创建执行环境SparkEnv
3.3 创建metadataCleaner
3.4 SparkUI详解
3.5 Hadoop相关配置及Executor环境变量
3.6 创建任务调度器TaskSched5uler
3.7 创建和启动DAGScheduler
3.8 TaskScheduler的启动
3.9 启动测量系统MetricsSystem
3.10 创建和启动ExecutorAllocation-Manager
3.11 ContextCleaner的创建与启动
3.12 Spark环境更新
3.13 创建DAGSchedulerSource和BlockManagerSource
3.14 将SparkContext标记为激活
3.15 小结
第4章 存储体系
第5章 任务提交与执行
第6章 计算引擎
第7章 部署模式
第8章 Spark SQL
第9章 流式计算
第10章 图计算
第11章 机器学习
附录A Utils
附录B Akka
附录C Jetty
附录D Metrics
附录E Hadoop word count
附录F CommandUtils
附录G Netty
附录H 源码编译错误

相关文章
|
Apache 分布式计算 Spark
Apache Spark Delta Lake 事务日志实现源码分析
Apache Spark Delta Lake 事务日志实现源码分析 我们已经在这篇文章详细介绍了 Apache Spark Delta Lake 的事务日志是什么、主要用途以及如何工作的。那篇文章已经可以很好地给大家介绍 Delta Lake 的内部工作原理,原子性保证,本文为了学习的目的,带领大家从源码级别来看看 Delta Lake 事务日志的实现。
1983 0
|
分布式计算 Java Shell
Spark源码分析之Spark Shell(上)
终于开始看Spark源码了,先从最常用的spark-shell脚本开始吧。不要觉得一个启动脚本有什么东东,其实里面还是有很多知识点的。另外,从启动脚本入手,是寻找代码入口最简单的方法,很多开源框架,其实都可以通过这种方式来寻找源码入口。
908 0
Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)
Spark2.4.0源码分析之WorldCount 默认shuffling并行度为200(九)
1264 0
|
分布式计算 Spark 索引
Spark2.4.0源码分析之WorldCount ShuffleMapTask处理(八)
- 理解Executor中是如何调用Task的过程 - 理解ShuffleMapTask是处理过程
1591 0
|
调度 算法
Spark2.4.0源码分析之WorldCount 任务调度器(七)
- 理解TaskSet是如何提交到任务调度器池,任务集如何被调度 - 理解Worker可用资源算法,Worker可用资源分配任务调度池中的任务 - 任务发送给executor去执行
876 0
|
分布式计算 Spark Hadoop
Spark2.4.0源码分析之WorldCount Stage提交(DAGScheduler)(六)
- 理解ShuffuleMapStage是如何转化为ShuffleMapTask并作为TaskSet提交 - 理解ResultStage是如何转化为ResultTask并作为TaskSet提交
1154 0
|
分布式计算 Apache Spark
Spark2.4.0源码分析之WorldCount Stage提交顺序(DAGScheduler)(五)
理解FinalStage是如何按stage从前到后依次提交顺序
2190 0
|
缓存 分布式计算 Scala
Spark2.4.0源码分析之WorldCount Stage划分(DAGScheduler)(四)
理解FinalStage的转化(即Stage的划分)
865 0
|
分布式计算 Spark
Spark2.4.0源码分析之WorldCount 事件循环处理器(三)
理解DAG事件循环处理器处理事件流程
1029 0
|
分布式计算
Spark2.4.0源码分析之WorldCount 触发作业提交(二)
Final RDD作为参数,通过RDD.collect()函数触发作业提交
1344 0