文档备案控制台

开发者社区问答正文

Spark执行流程的过程要怎么描述？

Spark执行流程的过程要怎么描述？

展开

收起

游客fbdr25iajcjto 2021-12-06 22:06:17 676 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客7ygkl73u5msna

过程描述:

1.通过Shell脚本启动Master，Master类继承Actor类，通过ActorySystem创建并启动。

2.通过Shell脚本启动Worker，Worker类继承Actor类，通过ActorySystem创建并启动。

3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等)，以后就是定时汇报，保持心跳。

4.Master接受消息后保存(源码中通过持久化引擎持久化)并发送消息表示Worker注册成功，并且定时调度，移除超时的Worker。

5.通过Spark-Submit提交作业或者通过Spark Shell脚本连接集群，都会启动一个Spark进程Driver。

6.Master拿到作业后根据资源筛选Worker并与Worker通信，发送信息，主要包含Driver的地址等。

7.Worker进行收到消息后，启动Executor，Executor与Driver通信。

8.Driver端计算作业资源，transformation在Driver 端完成，划分各个Stage后提交Task给Executor。

9.Exectuor针对于每一个Task读取HDFS文件，然后计算结果，最后将计算的最终结果聚合到Driver端或者写入到持久化组件中。

2021-12-06 22:06:57

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark流程 apache spark执行流程 apache spark过程

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Dataworks中spark 节点怎么使用流程参数？

349

3

0

在供应链核算的Spark处理流程中，主要包含哪些主流程？

93

1

0

Spark程序的流程是什么样的啊？

2452

1

0

spark 执行RDD操作的过程要注意什么吗？

2460

1

0

Standalone模式下运行Spark程序的大概流程是怎么样的？

952

1

0

Spark Master的选举过程是什么？

687

0

0

Spark streamning工作流程具体是怎么样的，和Storm比具体有什么区别？

702

1

0

Spark作业提交流程具体是怎么样的？

764

1

0

SparkSubmit类的流程是怎样的？

2553

1

0

Spark早期的shuffle过程存在那些问题？

2338

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

2026年低成本上云好时机：阿里云38元、99元、199元服务器全方位测评与购买攻略

2026年通义千问Tokens收费全攻略：定义、计费、价格与成本控制

阿里云大模型Tokens入门：2026年通义千问计费规则、价格与省钱指南

阿里云Tokens收费详解：2026年通义千问计费标准与成本评估

2026年通义千问Tokens全解：定义、计费规则与价格性价比分析

相关文章

告别Spark脚本，阿里云AnalyticDB「全自动」表优化实践

大数据处理方案：海量日志中的IP归属地如何高效分析？用IP离线库实现批量查询

多Agent集群协作架构设计：路由、委托、辩论、群体四种模式的边界与枢衡实践

Agent 应用范式下，企业数据基础设施如何演进？

还有其他疑问?