《循序渐进学Spark 》导读

简介:

目  录
前 言
第1章  Spark架构与集群环境    
1.1 Spark概述与架构    
1.1.1 Spark概述    
1.1.2 Spark生态    
1.1.3 Spark架构    
1.2 在Linux集群上部署Spark    
1.2.1 安装OpenJDK    
1.2.2 安装Scala    
1.2.3 配置SSH免密码登录    
1.2.4 Hadoop的安装配置    
1.2.5 Spark的安装部署    
1.2.6 Hadoop与Spark的集群复制    
1.3 Spark 集群试运行    
1.4 Intellij IDEA的安装与配置    
1.4.1 Intellij的安装    
1.4.2 Intellij的配置    
1.5 Eclipse IDE的安装与配置   
1.6 使用Spark Shell开发运行Spark程序   
1.7 本章小结    
第2章  Spark 编程模型    
2.1 RDD弹性分布式数据集    
2.1.1 RDD简介    
2.1.2 深入理解RDD    
2.1.3 RDD特性总结    
2.2 Spark程序模型    
2.3 Spark算子    
2.3.1 算子简介    
2.3.2 Value型Transmation算子    
2.3.3 Key-Value型Transmation算子   
2.3.4 Action算子    
2.4 本章小结    
第3章  Spark机制原理    
3.1 Spark应用执行机制分析    
3.1.1 Spark应用的基本概念
3.1.2 Spark应用执行机制概要    
3.1.3 应用提交与执行   
3.2 Spark调度机制    
3.2.1 Application的调度    
3.2.2 job的调度    
3.2.3 stage(调度阶段)和TasksetManager的调度    
3.2.4 task的调度   
3.3 Spark存储与I/O    
3.3.1 Spark存储系统概览    
3.3.2 BlockManager中的通信   
3.4 Spark通信机制    
3.4.1 分布式通信方式    
3.4.2 通信框架AKKA   
3.4.3 Client、Master和Worker之间的通信    
3.5 容错机制及依赖    
3.5.1 Lineage(血统)机制   
3.5.2 Checkpoint(检查点)机制    
3.6 Shuffle机制    
3.6.1 什么是Shuffle    
3.6.2 Shuffle历史及细节    
3.7 本章小结    
相关文章
|
存储 分布式计算 大数据
|
5月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
307 0
|
8月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
400 79
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
870 2
ClickHouse与大数据生态集成:Spark & Flink 实战