Dataphin补数据又双叒叕升级了,支持筛选节点类型,支持输入或粘贴节点名称批量补数据

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin 4.0版本针对补数据操作进行了升级,旨在提升用户体验。在面对数据缺失问题时,如某企业因上游系统故障需紧急回刷历史数据,Dataphin提供了按节点类型筛选下游节点的功能,减少了手动操作的错误和时间消耗。对于大规模任务管理,如银行数据中心的历史数据补充,Dataphin支持按照节点名称批量补数据,提高了效率和准确性。此外,还优化了逻辑表补数据的性能,并允许配置超时任务自动重跑,以应对调度高峰。

背景

补数据作为最常见的运维操作之一,其易用性一直影响着广大用户,Dataphin4.0版本也对补数据进行了一系列功能升级,帮助用户解放双手。

场景1

某企业拥有一个复杂的数据处理系统,该系统每天处理来自全国各地的海量数据。在这个系统中,有一个关键的上游系统负责提供每天的增量数据,这些数据会流向下游,用于生成关键的业务报表和数据分析。

在1月1日,由于上游系统的一个数据库问题,原本应该在这一天采集的数据并未到达。这个缺失被数据工程师Emily在日常检查中及时发现。客户和内部数据分析团队迫切需要这些数据来制定新一年的商业决策和策略,因此Emily面临着紧急的数据修复任务。

首先,Emily协调上游系统的团队,确保1月1日的数据能够被重新提供。在获取到数据后,她需要回刷历史数据,操作步骤总结如下:

第一步:针对1月1日缺失的数据,对集成任务补数据将数据完整地导入到相应日期的分区中。这一步主要是针对增量数据进行“补入”,即将1月1日应该获取的数据补充到数据仓库中。

第二步:由于这个数据延误已经影响到了下游的数据合并SQL任务,在完成第一步补入1月1日数据之后,需要对下游的数据合并SQL任务进行补数据,执行从1月1日开始到最新日期的所有下游合并SQL任务,确保所有依赖于1月1日数据的下游聚合或计算得到更新和纠正。

在这个过程中,Emily必须手动搜索和筛选一系列集成任务和SQL任务,这些任务分别遵循两种不同的命名规则。集成任务通常以特定的日期和数据源命名,而SQL任务则遵循另一套基于数据处理逻辑的命名体系。这种不一致性导致了工作流程的低效,Emily在搜索特定任务时不得不在两套不同的命名规则之间切换,这不仅耗费了她大量的时间,也大大增加了操作出错的风险,如可能漏选应当执行的任务或误选并非当下所需执行的任务。

Dataphin解决方案

为解决类似以上场景的问题,Dataphin4.0版本支持了补数据列表模式按照节点类型筛选下游节点,方便用户筛选指定类型的节点,减少误操作。

场景2

在一家规模庞大的银行,数据中心的工作至关重要。这家银行有着成百上千的数据处理任务,这些任务涉及客户信息、交易记录、风险评估等多个方面。由于金融行业的严格合规要求和对数据准确性的高度依赖,所有这些任务都需要经过精确和细致的数据补充和验证工作。

在这样的环境下,任务通常是分批次上线的。每当有一批新的任务上线,数据管理团队需要根据上线任务的清单准确地进行数据补充,确保这些新任务含有所需的历史数据,以便它们能够顺利地运行并生成准确的报告。

此外,银行的数据中心也需要灵活应对上游数据的调整和变更。任何一个小的调整都可能需要对一系列任务进行数据补充。因此,当上游数据发生变更时,数据管理团队会进行影响性分析,并生成一份需要补充数据的任务清单。

为了简化这个复杂的过程,银行希望引入一种能够通过上传Excel表格或者直接粘贴任务节点名称的方式来自动补充数据的系统。这样的系统将显著提高数据补充的效率和准确性,数据管理团队不再需要手动搜索和输入大量的任务标识符,而可以专注于补充数据的质量和一致性。通过这种方式,一旦表格或节点列表上传完毕,相关任务将被自动识别,并进行批量数据补充。

Dataphin解决方案

为解决类似以上场景的问题,Dataphin4.0版本支持了输入或粘贴节点名称批量补数据,这个改进将为数据治理带来极大便利,减少人力资源消耗,避免手动操作中可能出现的错误,并且保证了数据处理工作的顺利进行。

总结

除以上两个功能外,Dataphin4.0版本运维模块还对逻辑表补数据进行了优化,降低了字段连带复杂性,提升了查询性能,使得逻辑表补数据字段可选可控;支持全局配置由于运行超时失败后任务是否自动重跑,一定程度上解决调度高峰期资源不足任务失败的问题,其他更多精彩内容,欢迎体验。

相关文章
|
2月前
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
|
2月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
2月前
|
数据采集 分布式计算 数据处理
Dataphin常见问题之与指定类型int不兼容如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
5月前
|
存储 数据采集 安全
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
|
4月前
|
SQL 运维 调度
Dataphin V3.14 版本升级|研发平台更易用,治理能力更完备,企业级适配更灵活
Dataphin V3.14 重磅升级,平台支持企业级适配,适配企业特色;研发体验易用性提升,数据研发更高效、任务运维更便捷;数据治理能力更完备,支持多对象批量操作,规则级告警配置、分级分类自动继承继承!
311 0
|
5月前
|
SQL 监控 安全
Dataphin V3.11焕新升级丨2大全新模块上线,让数据分析更敏捷、让数据流通更安全
Dataphin V3.11焕新升级丨2大全新模块上线,让数据分析更敏捷、让数据流通更安全
|
5月前
|
监控 安全 大数据
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
|
5月前
|
SQL 运维 监控
Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力
Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力
|
5月前
|
UED
瓴羊Dataphin V3.8 升级速递丨强化数据治理、提升标签洞察力、灵活管理诉求……
瓴羊Dataphin V3.8 升级速递丨强化数据治理、提升标签洞察力、灵活管理诉求……
|
5月前
|
SQL 运维 API
Dataphin(智能数据建设与治理)V3.13版本升级速览
本次发布的V3.13 版本中,Dataphin 不仅提升了易用性,支持了计算任务批量操作(离线集成&实时计算任务)、运维列表查看及批量操作(实例排序、手动任务批量运行、逻辑表任务修改负责人)等功能;也新增了多个特色功能,如:任务传参及灵活调度(跨节点参数)、治理经验沉淀(质量知识库)、资产治理相关对象的跨租户发布(数据标准、安全)、跨集群资源调度、分析平台手工表等,以满足灵活、多样性的业务诉求。
416 2

热门文章

最新文章