Spark的一些问题汇总 及 Yarn与Spark架构的对比

简介: Spark的一些问题汇总 及 Yarn与Spark架构的对比

1、Spark解决什么问题?

       海量数据的计算可以进行离线批处理以及实时流计算。



2、Spark有哪些模块?

       核心SparkCore、SQL计算(SparkSQL)、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLlib)


3、Spark有哪些特点?

       速度快、使用简单、通用性强、支持多种模式运行



4、Saprk的运行模式

       本地模式


       集群模式(StandAlone、YARN、K8S)


       云模式


5、Spark的运行角色(对比YARN)

       Master:集群资源管理(类同ResourceManager)


       Worker:单机资源模式(类同NodeManager)


       Driver:单任务管理者(类同ApplicationMaster)


       Executor:单任务执行者(类同YARN容器内的Task)



Yarn、Spark架构对比

1、YARN主要有4类角色,从两个层面去看:


# 资源管理层面


       1、集群资源管理者(Master):ResourceManger(RM)


       2、单机资源管理者(Worker):NodeManger


# 任务计算层面


       1、单任务管理者(Master):ApplicationMaster


       2、单任务执行者(Worker):Task(容器内计算框架的工作角色)

 

2、Spark主要有4类角色,从两个层面去看:

# 资源管理层面

       1、集群资源管理者:Master

       2、单机资源管理者:Worker

# 任务计算层面

       1、单任务管理者:Driver

       2、单任务执行计算者:Executor (干活的)


目录
相关文章
|
5月前
|
分布式计算 Kubernetes 调度
Kubeflow-Spark-Operator-架构学习指南
本指南系统解析 Spark Operator 架构,涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径,助你从部署到贡献,掌握 Kubernetes Operator 核心原理与实战技能。
312 0
|
8月前
|
SQL JSON 分布式计算
Spark SQL架构及高级用法
Spark SQL基于Catalyst优化器与Tungsten引擎,提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行,支持复杂数据类型、窗口函数与多样化聚合操作,结合自适应查询与代码生成技术,实现高性能大数据分析。
559 2
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
3 秒音频也能克隆?拆解 Spark-TTS 架构的极致小样本学习
本文深入解析了 Spark-TTS 模型的架构与原理,该模型仅需 3 秒语音样本即可实现高质量的零样本语音克隆。其核心创新在于 BiCodec 单流语音编码架构,将语音信号分解为语义 Token 和全局 Token,实现内容与音色解耦。结合大型语言模型(如 Qwen 2.5),Spark-TTS 能直接生成语义 Token 并还原波形,简化推理流程。实验表明,它不仅能克隆音色、语速和语调,还支持跨语言朗读及情感调整。尽管面临相似度提升、样本鲁棒性等挑战,但其技术突破为定制化 AI 声音提供了全新可能。
774 35
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
450 4
|
分布式计算 资源调度 Hadoop
Spark Standalone与YARN的区别?
本文详细解析了 Apache Spark 的两种常见部署模式:Standalone 和 YARN。Standalone 模式自带轻量级集群管理服务,适合小规模集群;YARN 模式与 Hadoop 生态系统集成,适合大规模生产环境。文章通过示例代码展示了如何在两种模式下运行 Spark 应用程序,并总结了两者的优缺点,帮助读者根据需求选择合适的部署模式。
705 3
|
分布式计算 Spark 容器
Spark 架构和组件集的简要概述
Spark 架构和组件集的简要概述   Flex 4 提供的 Spark 组件 Flex 4 目前提供各种 Spark 组件。Flex 的后续版本将提供更多 Spark 控件,与 MX 组件集并驾齐驱。
|
9月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
461 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1104 2
ClickHouse与大数据生态集成:Spark & Flink 实战