Dataphin中重跑与强制重跑的区别

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 本文主要解析了Dataphin产品中重跑与强制重跑的区别及运行原理,推荐用户根据不同的场景选择适合的操作。

区别一:适用的实例对象范围不同


通常情况下,当实例运行完成后,会变为成功或失败状态。此时如果用户可能因为各种原因需要对实例进行重跑,就可以通过重跑按钮进行实例的重跑。重跑时,系统会按照最新发布的代码版本执行。Dataphin支持针对单个实例进行重跑、或选中一个起点及其下游,按照依赖关系进行批量重跑(如整条链路计算逻辑修改等场景),以实现全链路数据更新。


可能存在某些处于非成功或失败状态的实例,不满足重跑操作所要求条件(实例依赖的所有上游实例运行成功并到达当前实例的定时调度时间)的情况,此时就需要采用强制重跑操作。


如下图所示,重跑主要针对正常运行结束后状态为成功或失败的实例,而强制重跑可以无视实例的状态强制运行。

实例生命周期状态

重跑与强制重跑的区别.png

区别二:运行机制不同


场景一:任务A少读取了一部分数据,任务B因为缺少这部分数据运行失败了,对任务A的代码逻辑进行修复后,需要从A开始向下重跑。

如下图所示,A、B、C 三个任务,存在着依次依赖的关系,需要上一个任务成功运行完成后,才能开始运行下一个任务。此时 B 任务运行失败了,C 任务处于未运行状态。

重跑与强制重跑的区别 (1).png

重跑:当我们选择重跑节点时,仅可选择 A 和 B 任务, C 任务因为不满足重跑运行条件(上游所有任务成功完成),不能选择。我们可选择重跑 B 节点,当 B 点成功完成后,C 任务会因为满足运行条件(上游所有任务成功完成且到达调度时间)自动开始运行,而无需进行额外的设置。

强制重跑:我们也可以无视任务状态,对 B、C 选择强制重跑,此时系统会根据节点依赖关系,依次运行 B 和 C 节点。


通常情况下,我们重跑失败的节点即可,无需对下游节点进行额外操作。


场景二:任务 B 的代码存在问题导致写入分区的数据为空,因此当任务 C 读取表的时候运行失败了。此时用户对 B 节点的代码进行了改写,并重跑。在 B 节点运行过程中,发现了 A 节点的代码也存在问题,对 A 节点任务进行的修改。此时,用户选择重跑或强制重跑,运行结果会有极大不同。

重跑与强制重跑的区别 (2).png


重跑:此时由于 B 节点处于运行中,因此无法进行重跑。我们仅能对 A 和 C 节点进行重跑操作,且因为处于依赖链条中间的 B 节点并不参加此次的重跑,系统会将 A 和 C 节点当成两个独立的节点运行。因此,A 节点更新的数据并不会对 B 和 C 的任务生效。

强制重跑:可以无视任务状态,对 A、B、C 节点选择强制重跑,此时系统会强制终止掉运行中的 B 任务,将所有任务置为未运行状态,然后再根据节点的相互依赖关系依次运行。此时,A 节点更新的数据会对下游所有任务生效。


适用场景

通常情况下,当任务运行失败时,我们只要选择失败的任务进行重跑就可以了。下游处于未运行状态的节点会在上游节点运行成功后自动开始运行。

在某些特殊场景下,我们可以忽略上游实例的运行状态(一般是无数据依赖,仅调度依赖,或者对数据实效性要求不高的情况),使用强制重跑功能来恢复运行。另外,如果运行到链路中间的任务,忽然发现上游任务有数据错误的情况需要及时止损,可以采用强制重跑功能。此时,系统会先将所有选中的任务批量终止,再从最上游实例按照依赖关系依次向下运行,避免新老代码并存产生的数据错乱。

相关文章
|
7月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
JSON 缓存 运维
Dataphin数据服务API开启IP白名单调用鉴权
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
231 0
|
1月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
128 3
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
1月前
|
安全 Java 数据库连接
Dataphin的数据共享的应用场景和方案
不同的业务场景对数据访问和使用有着各自独特的需求,从简单的数据下载到复杂的跨系统集成,选择合适的数据共享与访问方式至关重要。本文旨在探讨几种常见的Dataphin上的数据共享与访问机制——包括数据复制、数据下载、视图创建、行级及列级权限控制、API数据服务以及JDBC连接等,并分析它们各自的适用场景、优势及限制,以帮助企业更好地根据自身需求做出合理的选择。
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
5月前
|
SQL 运维 安全
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
2023 2
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
214 1

热门文章

最新文章