瓴羊智能服务

专注于为企业提供数智化转型服务,数据知识挖掘机...方法论、数据技术与产品、最佳行业实践都能聊!

标准创建完成后,需要和对应的资产对象关联起来才能真正实现其应用价值,实现对资产的规范性约束。Dataphin 支持基于标准属性值和资产对象元数据属性值进行落标关联映射配置,以实现标准和资产的关联,作为后续落标稽核的基础。下面,我们通过一个例子来进一步理解 Dataphin 如何实现落标映射与稽核。

首先,我们需要权限出进行映射匹配的标准和资产对象范围:

• 标准:来自于“测试标准集”的所有“已生效”状态的标准

• 资产对象:所属表名包含“test”字样的所有字段其次,我们需要配置标准和资产对象的关联映射条件:标准名称=字段名称

最后,我们需要配置该规则的执行时间和频率等信息。

image.png

通过上述配置,系统可以自动执行该映射规则,圈选出相应范围的标准和资产对象并进行匹配。规则执行完成后,我们就可以在资产目录及规则执行明细页面清晰的看到某个资产关联到了哪些标准,以便参考映射到的标准定义进行开发,将数据治理前置到研发链路。

image.png

但是映射成功的资产对象是不是真正的遵循了这些标准呢?接下来就需要我们的落标评估能力来助力啦。Dataphin 支持针对资产对象的技术元数据进行落标评估,如字段类型、字段长度等。后续我们还将结合质量监控的能力,进一步拓展对值域、字段格式等内容的监控。针对不满足关联标准的资产,标准管理人员可以推动研发人员可以尽早进行整改,从源端保障数据规范性和统一性。

以上内容摘自《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》电子书,点击https://developer.aliyun.com/ebook/download/7832可下载完整版。

胡嘞嘞 评论 0

相较于传统模式下用 Excel 等线下文件管理数据标准的方式,Dataphin 支持在线创建数据标准模板(标准集),可以约束标准每一个属性的填写规范,以便约束基于该模板创建的所有标准,实现一次定义多次复用。如,某团队的基础数据标准需要具备以下属性:

• 业务属性:标准名称、标准编码、描述

• 技术属性:字段类型、字段长度、字段精度

• 管理属性:标准制定部门、应用业务部门

在创建标准集模板时,我们可以将“标准制定部门”和“应用业务部门”的类型设置为“枚举单值”并指定枚举范围,这样在创建标准时,这两个属性会以下拉单选框的形式展示,且可选范围为创建标准时指定的枚举范围,不仅大大提升了标准填写人员的效率和体验,也避免操作不一致造成的标准规范不一致。

此外,为了更好地将历史已有标准文件导入系统进行统一管理,Dataphin 支持批量导入及更新数据标准,只需要下载标准模板并配置冲突策略,就可以实现约束一致的数据标准的批量更新。

image.png

Dataphin 支持数据标准的全生命周期管理。创建完成后默认生成草稿态标准,确认填写无误后可以提交标准上线申请并生成对应的审批任务。

Dataphin 支持设置标准审批模板,以适配不同管理范围下标准的审批。标准上线后根据设置的标准生效时间,自动生成待生效、已生效、已失效的标准。上线后的支持修订,会生成修订中的版本,修订中版本再次发布前,不会影响线上已生效的标准版本。基于该流程,可以实现灵活完整的标准生命周期管理。

image.png

以上内容摘自《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》电子书,点击https://developer.aliyun.com/ebook/download/7832可下载完整版。

胡嘞嘞 评论 0

• 优先级:支持最高、高、中等、低、最低 5 种优先级,影响调度资源的分配。

对于需要重点保障的任务,可以通过设置高优先级配置保证资源优先分配。

• 调度类型:支持正常调度、空跑调度、暂停调度三种方式。空跑调度的任务生成的所有实例直接空跑成功,不会真正运行;暂停调度的任务生成的实例均为暂停运行状态,常用于经常需要暂停某些链路上的数据更新、又不希望频繁下线任务或修改依赖的场景。

• 调度周期:支持分钟、小时、日、周、月调度,不同调度周期对应不同的运行频率,并支持配置每个实例的定时调度时间。如抽数任务,需要每小时从业务库抽取上一小时新增的订单数据,再进行销售总额的合并计算,则需要配置调度周期为“小时”,开始运行时间为每个整点,以保证数据时效性。

• 上游依赖:提供自动依赖解析能力,可以基于 SQL 详情解析出存在数据依赖的上游任务并自动添加。对于不存在数据依赖关系但是有调度依赖的上游(如用于检查数据变化情况的 check 任务),可以手动搜索添加。

• 依赖上周期:支持配置依赖任务自身或其他任务的上一周期实例。有时为了防止多个实例同时运行造成的数据冲突或重复,需要保证每个任务同一时间只有一个任务在运行,此时可以配置“自依赖”,如“截止当日销售总额”任务,计算口径为“前一日销售总额+当日销售总额”。另外一些场景下,任务运行完成时间较晚,对于数据时效性要求不严格的下游,可以配置依赖该任务的上周期。

以上内容摘自《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》电子书,点击https://developer.aliyun.com/ebook/download/7832可下载完整版。

胡嘞嘞 评论 0

公告

瓴羊是阿里巴巴中台能力的全面开放和对外输出,集成了数据、业务、服务中台系统多年的能力和经验,旨在数字经济时代,面对企业客户提供分析、营销、产销、客服等多领域智能产品和服务,助力企业在商业社会中决胜当下,跑赢未来。 目前设有官方钉钉交流群、官网渠道,欢迎欢迎志同道合者一起交流成长!

展开

相关产品

  • 全域采集与增长分析