背景
补数据作为最常见的运维操作之一,其易用性一直影响着广大用户,Dataphin4.0版本也对补数据进行了一系列功能升级,帮助用户解放双手。
场景1
某企业拥有一个复杂的数据处理系统,该系统每天处理来自全国各地的海量数据。在这个系统中,有一个关键的上游系统负责提供每天的增量数据,这些数据会流向下游,用于生成关键的业务报表和数据分析。
在1月1日,由于上游系统的一个数据库问题,原本应该在这一天采集的数据并未到达。这个缺失被数据工程师Emily在日常检查中及时发现。客户和内部数据分析团队迫切需要这些数据来制定新一年的商业决策和策略,因此Emily面临着紧急的数据修复任务。
首先,Emily协调上游系统的团队,确保1月1日的数据能够被重新提供。在获取到数据后,她需要回刷历史数据,操作步骤总结如下:
第一步:针对1月1日缺失的数据,对集成任务补数据将数据完整地导入到相应日期的分区中。这一步主要是针对增量数据进行“补入”,即将1月1日应该获取的数据补充到数据仓库中。
第二步:由于这个数据延误已经影响到了下游的数据合并SQL任务,在完成第一步补入1月1日数据之后,需要对下游的数据合并SQL任务进行补数据,执行从1月1日开始到最新日期的所有下游合并SQL任务,确保所有依赖于1月1日数据的下游聚合或计算得到更新和纠正。
在这个过程中,Emily必须手动搜索和筛选一系列集成任务和SQL任务,这些任务分别遵循两种不同的命名规则。集成任务通常以特定的日期和数据源命名,而SQL任务则遵循另一套基于数据处理逻辑的命名体系。这种不一致性导致了工作流程的低效,Emily在搜索特定任务时不得不在两套不同的命名规则之间切换,这不仅耗费了她大量的时间,也大大增加了操作出错的风险,如可能漏选应当执行的任务或误选并非当下所需执行的任务。
Dataphin解决方案
为解决类似以上场景的问题,Dataphin4.0版本支持了补数据列表模式按照节点类型筛选下游节点,方便用户筛选指定类型的节点,减少误操作。
场景2
在一家规模庞大的银行,数据中心的工作至关重要。这家银行有着成百上千的数据处理任务,这些任务涉及客户信息、交易记录、风险评估等多个方面。由于金融行业的严格合规要求和对数据准确性的高度依赖,所有这些任务都需要经过精确和细致的数据补充和验证工作。
在这样的环境下,任务通常是分批次上线的。每当有一批新的任务上线,数据管理团队需要根据上线任务的清单准确地进行数据补充,确保这些新任务含有所需的历史数据,以便它们能够顺利地运行并生成准确的报告。
此外,银行的数据中心也需要灵活应对上游数据的调整和变更。任何一个小的调整都可能需要对一系列任务进行数据补充。因此,当上游数据发生变更时,数据管理团队会进行影响性分析,并生成一份需要补充数据的任务清单。
为了简化这个复杂的过程,银行希望引入一种能够通过上传Excel表格或者直接粘贴任务节点名称的方式来自动补充数据的系统。这样的系统将显著提高数据补充的效率和准确性,数据管理团队不再需要手动搜索和输入大量的任务标识符,而可以专注于补充数据的质量和一致性。通过这种方式,一旦表格或节点列表上传完毕,相关任务将被自动识别,并进行批量数据补充。
Dataphin解决方案
为解决类似以上场景的问题,Dataphin4.0版本支持了输入或粘贴节点名称批量补数据,这个改进将为数据治理带来极大便利,减少人力资源消耗,避免手动操作中可能出现的错误,并且保证了数据处理工作的顺利进行。
总结
除以上两个功能外,Dataphin4.0版本运维模块还对逻辑表补数据进行了优化,降低了字段连带复杂性,提升了查询性能,使得逻辑表补数据字段可选可控;支持全局配置由于运行超时失败后任务是否自动重跑,一定程度上解决调度高峰期资源不足任务失败的问题,其他更多精彩内容,欢迎体验。