Flink运行时之客户端提交作业图-下

简介: submitJob方法分析 JobClientActor通过向JobManager的Actor发送SubmitJob消息来提交Job,JobManager接收到消息对象之后,构建一个JobInfo对象以封装Job的基本信息,然后将这两个对象传递给submitJob方法: case SubmitJo.

submitJob方法分析

JobClientActor通过向JobManager的Actor发送SubmitJob消息来提交Job,JobManager接收到消息对象之后,构建一个JobInfo对象以封装Job的基本信息,然后将这两个对象传递给submitJob方法:

我们会以submitJob的关键方法调用来串讲其主要逻辑。首先判断jobGraph参数,如果为空则直接回应JobResultFailure消息:

接着,向类库缓存管理器注册该Job相关的库文件、类路径:

必须确保该步骤率先成功执行,因为一旦后续产生任何异常才可以确保上传的类库和Jar等被成功从类库缓存管理器中移除。从这开始的整个代码段都被包裹在try语句块中,一旦捕获到任何异常,会通过libraryCacheManager的unregisterJob方法将相关Jar文件删除:

接下来是获得用户代码的类加载器classLoader以及发生失败时的重启策略restartStrategy:

接着,获得执行图ExecutionGraph对象的实例。首先尝试从缓存中查找,如果缓存中存在则直接返回,否则直接创建然后加入缓存:

获得了executionGraph之后会对其相关属性进行设置,这些属性包括调度模式、是否允许被加入调度队列、计划的Json格式表示。

接下来初始化JobVertex的一些属性:

获得JobGraph中从source开始的按照拓扑顺序排序的顶点集合,然后将该集合附加到ExecutionGraph上,附加的过程完成了很多事情,我们后续进行分析:

接下来将快照配置和检查点配置的信息写入ExecutionGraph:

JobManager自身会注册Job状态变更的事件回调:

如果Client也需要感知到执行结果以及Job状态的变更,那么也会为Client注册事件回调:

以上这些代码从将Job相关的Jar加入到类库缓存管理器开始,都被包裹在try块中,如果产生异常将进入catch代码块中进行异常处理:

异常处理时首先根据jobID移除类库缓存中跟当前Job有关的类库,接着从currentJobsMap中移除job对应的ExecutionGraph,JobInfo元组信息。然后调用ExecutionGraph的fail方法,促使其失败。最后,将产生的异常以JobResultFailure消息告知客户端并结束方法调用。

从当前开始直到最后的这段代码可能会造成阻塞,将会被包裹在future块中并以异步的方式执行。先判断当前的是否是恢复模式,如果是恢复模式则从最近的检查点恢复:

如果不是恢复模式,但快照配置中存在保存点路径,也将基于保存点来重置状态:

然后会把当前的JobGraph信息写入SubmittedJobGraphStore,它主要用于恢复的目的

执行到这一步,就可以向Client回复JobSubmitSuccess消息了:

接下来会基于ExecutionGraph触发Job的调度,这是Task被执行的前提:

为了防止多个JobManager同时调度相同的Job的情况产生,这里首先判断当前节点是否是Leader。如果是,才会进行调度。否则将会向自身发送一条RemoveJob消息,以进入其他处理逻辑。

到此为止,submitJob方法的梳理就算完成了。因为这是JobManager接收到Client提交的Job后的主要处理方法,所以包含的逻辑比较多。


原文发布时间为:2017-04-02

本文作者:vinoYang

本文来自云栖社区合作伙伴CSDN博客,了解相关信息可以关注CSDN博客。

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
目录
相关文章
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
668 0
|
消息中间件 监控 Java
大数据-109 Flink 体系结构 运行架构 ResourceManager JobManager 组件关系与原理剖析
大数据-109 Flink 体系结构 运行架构 ResourceManager JobManager 组件关系与原理剖析
345 1
|
消息中间件 分布式计算 大数据
大数据-128 - Flink 并行度设置 细节详解 全局、作业、算子、Slot
大数据-128 - Flink 并行度设置 细节详解 全局、作业、算子、Slot
1369 0
|
消息中间件 监控 关系型数据库
实时计算 Flink版产品使用问题之运行后,怎么进行监控和报警
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
Oracle 关系型数据库 MySQL
实时计算 Flink版产品使用问题之如何从savepoint重新启动作业
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
机器学习/深度学习 人工智能 运维
美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向
美团 Flink 大作业部署问题之Flink在生态技术演进上有什么主要方向
|
监控 Serverless Apache
美团 Flink 大作业部署问题之如何体现Flink在业界的影响力
美团 Flink 大作业部署问题之如何体现Flink在业界的影响力
|
API 流计算 调度
Flink运行时之客户端提交作业图-上
客户端提交作业图 作业图(JobGraph)是Flink的运行时所能理解的作业表示,无论程序通过是DataStream还是DataSet API编写的,它们的JobGraph提交给JobManager以及之后的处理都将得到统一。
2547 0
|
9月前
|
存储 分布式计算 数据处理
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
阿里云实时计算Flink团队,全球领先的流计算引擎缔造者,支撑双11万亿级数据处理,推动Apache Flink技术发展。现招募Flink执行引擎、存储引擎、数据通道、平台管控及产品经理人才,地点覆盖北京、杭州、上海。技术深度参与开源核心,打造企业级实时计算解决方案,助力全球企业实现毫秒洞察。
789 0
「48小时极速反馈」阿里云实时计算Flink广招天下英雄
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。

热门文章

最新文章