备案控制台登录注册

开发者社区大数据文章正文

Spark 概念学习系列之Apache Spark 架构详解（十）（必须好好理解悟透）

2017-11-14 2748

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Spark的架构图如下：

　　　　　　　　　　

分别解释

　　1、Driver：运行 Application 的 main() 函数并且创建 SparkContext。

　　2、Client：用户提交作业的客户端。（类似于Hadoop里的Client）

　　3、Worker：集群中任何可以运行 Application 代码的节点，运行一个或多个 Executor进程。

　　4、Executor ：运行在 Worker 的 Task 执行器， Executor 启动线程池运行 Task，并且负责将数据存在内存或者磁盘上。每个 Application 都会申请各自的 Executor 来处理任务。（类似于Hadoop里的NodeManager）

　　5、SparkContext：整个应用的上下文，控制应用的生命周期。（类似于Hadoop里的Context上下文）

　　6、RDD： Spark 的基本计算单元，一组 RDD 形成执行的有向无环图 RDD Graph。

　　7、DAG Scheduler：根据 Job 构建基于 Stage 的 DAG 工作流，并提交 Stage 给TaskScheduler。

　　8、TaskScheduler：将 Task 分发给 Executor 执行。

　　9、SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5718842.html，如需转载请自行联系原作者

文章标签：

Apache

分布式计算

Spark

Hadoop

Java

存储

关键词：

架构apache

Apache架构

spark架构

apache spark架构

apache spark apache spark

技术小哥哥

+关注

目录

打赏

0

0

0

0

64

相关文章

扬流

|

3月前

|

分布式计算大数据 Apache

Apache Spark & Paimon Meetup · 北京站，助力 LakeHouse 架构生产落地

2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F，阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup，助力企业 LakeHouse 架构生产落地”线下 meetup，欢迎报名参加！

扬流

133 3 3

龙大吉

|

4月前

|

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

121 1 1

武子康

|

4月前

|

存储分布式计算算法

大数据-105 Spark GraphX 基本概述与架构基础概念详解核心数据结构

大数据-105 Spark GraphX 基本概述与架构基础概念详解核心数据结构

武子康

90 0 0

武子康

|

4月前

|

消息中间件分布式计算 Kafka

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

武子康

66 0 0

武子康

|

4月前

|

SQL 存储分布式计算

大数据-93 Spark 集群 Spark SQL 概述基本概念 SparkSQL对比架构抽象

大数据-93 Spark 集群 Spark SQL 概述基本概念 SparkSQL对比架构抽象

武子康

72 0 0

不吃核桃

|

6月前

|

存储消息中间件 Java

Apache Flink 实践问题之原生TM UI日志问题如何解决

Apache Flink 实践问题之原生TM UI日志问题如何解决

不吃核桃

60 1 1

灵杰开发者

|

2月前

|

存储人工智能大数据

The Past, Present and Future of Apache Flink

本文整理自阿里云开源大数据负责人王峰（莫问）在 Flink Forward Asia 2024 上海站主论坛开场的分享，今年正值 Flink 开源项目诞生的第 10 周年，借此时机，王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果，最后展望下一个十年 Flink 路向何方。

灵杰开发者

394 33 33

The Past, Present and Future of Apache Flink

灵杰开发者

|

4月前

|

SQL Java API

Apache Flink 2.0-preview released

Apache Flink 社区正积极筹备 Flink 2.0 的发布，这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进，包括存算分离状态管理、物化表、批作业自适应执行等，同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈，但不建议在生产环境中使用。

灵杰开发者

1025 13 13

Apache Flink 2.0-preview released

喜欢猪猪

|

4月前

|

存储缓存算法

分布式锁服务深度解析：以Apache Flink的Checkpointing机制为例

【10月更文挑战第7天】在分布式系统中，多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性，我们需要一种机制来协调这些进程或节点的访问，避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制，确保同一时间只有一个进程或节点能够访问和操作共享资源。

喜欢猪猪

173 3 3

阿里云瑶池数据库SelectDB

|

5月前

|

SQL 消息中间件关系型数据库

Apache Doris Flink Connector 24.0.0 版本正式发布

该版本新增了对 Flink 1.20 的支持，并支持通过 Arrow Flight SQL 高速读取 Doris 中数据。

阿里云瑶池数据库SelectDB

167 21 22

热门文章

最新文章

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

【赵渝强老师】Spark RDD的依赖关系和任务阶段

Spark 与 MapReduce 的 Shuffle 的区别？

Spark Master HA 主从切换过程不会影响到集群已有作业的运行，为什么？

【赵渝强老师】Spark的容错机制：检查点

金融场景 PB 级大规模日志平台：中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践

Apache Doris 2.1.8 版本正式发布

使用 Apifox、Postman 测试 Dubbo 服务，Apache Dubbo OpenAPI 即将发布

深入剖析Transformer架构中的多头注意力机制

从 ClickHouse 到 Apache Doris：在网易云音乐日增万亿日志数据场景下的落地

构建高效微服务架构：从理论到实践

【阿里云云原生专栏】事件驱动架构在阿里云云原生生态中的角色与实施路径

构建高效可靠的微服务架构：策略与实践

飞天技术沙龙回顾：业务创新新选择，倚天Arm架构深入探讨

构建未来：云原生架构在企业数字化转型中的应用

构建高效微服务架构是后端开发的关键

哪种架构更符合未来云的发展趋势呢?

【PolarDB开源】PolarDB高可用架构解析：确保业务连续性的关键设计

构建未来：云原生架构在企业数字化转型中的关键作用

构建高效可扩展的微服务架构：后端开发的新趋势

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

每个IT人都想学的“Web应用上云经典架构”实战

MySQL引擎及架构优化

基于数据湖架构的网站访问行为分析

使用SLB+2ECS+NAS，部署电商web网站的高可用架构

使用EDA架构部署在线外卖订单系统

部署高可用架构

推荐镜像

更多

apache

packman

CPAN

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型

你好，我是AI助理

可以解答问题、推荐解决方案等