一、概述
数据标准创建完成后,需要指定其关联的资产对象才能发挥应用价值。数据标准和资产对象的映射关系通过落标映射规则来管理,对象是否遵循了映射到的标准定义则通过落标监控规则来判断。本文为您介绍落标监控评估的基本概念和监控逻辑。Dataphin 支持通过定义标准属性和资产对象元数据字段之间的匹配关系,自动生成数据标准和资产对象的映射关联;针对已确定的映射关系,可结合数据标准的定义对关联的资产对象进行落标监控,包括元数据监控和内容质量监控。
二、落标监控功能简介
落标监控是落标映射的后续步骤,是指针对每个数据标准对映射到的资产对象,判断其是否遵循了数据标准的定义,并根据落标评估结果及时修正开发。针对根据监控类型的不同可分为“元数据监控”和“内容质量监控”。
1) 元数据监控
元数据监控用于评估资产对象的元数据字段值和标准定义的属性值是否一致,如:数据类型、数据分类、数据分级,因此需要配置参与监控的对象元数据字段以及相对应的标准属性字段。此外,还需要配置校验通过逻辑(如:值相等则通过)和校验过程中是否大小写敏感。注意,如果指定的元数据字段无法从数据源获取相应值,则无法进行落标评估。
例如:希望通过数据标准约束字段的“数据类型”,其中“会员注册渠道“标准的“数据类型”属性值为STRING,该标准映射到的字段“registration_channel”在数据库中存储的数据类型为INT,则不符合标准定义,监控结果为不通过。
Dataphin 当前仅支持通过引用内置落标监控的系统属性来实现元数据监控的配置,暂不支持自定义新增元数据监控,更多功能敬请期待。
2)内容质量监控
内容质量监控是指针对标准映射到的资产对象(如字段、指标),评估其具体内容(如字段值)是否符合标准的约束,如:值域是否在指定范围内、字段值是否唯一等,将结合 Dataphin 数据质量模块的功能来实现(需要购买并开通数据质量功能才可以使用内容质量监控)。
内容质量监控根据是否和标准填写的属性值相关可以细分为 2 类:
- 根据填写的标准属性值自动生成监控规则配置:Dataphin 提供多条内置内容质量监控的公共系统属性,如:值域、是否唯一值、是否可为空值/空字符串;如果标准集引用了公共系统属性,则创建数据标准时,会根据填写的属性值自动生成质量监控规则的规则配置和校验配置,如:引用“值域”属性,属性的取值方式配置为“范围值-范围区间”,那么在创建数据标准时,填写完成值域属性就会自动生成 1 条“字段值域监控”的质量监控配置,其中“规则配置”详情和填写的区间值一致并跟随标准定义变更而自动更新,“校验配置”为“异常行数<=0”,无需额外手动配置。
- 规则详情与标准属性值无关,但在数据标准创建后可被批量引用并统一维护:某些场景下,质量监控规则和标准的属性值本身无关,但是希望针对同一个标准映射到的所有资产对象都配置相同的监控,并且后续可以统一维护规则详情,如:字段唯一值监控规则。数据标准的自定义质量监控为这种场景提供了支持:创建数据标准时,可以自定义新建内容质量落标监控;创建完成并生成映射关系后后,针对该标准映射到的每一个资产对象,都可以在质量模块的监控规则配置页面通过“引用数据标准”监控的方式将配置好的落标监控一键添加生成质量规则;后续在数据标准页面针对该监控配置进行的任何修改,都会对引用生成的质量监控自动生效,从而减少批量维护成本,配置详情请参加下文“落标监控配置”章节。
三、落标监控配置简介
Dataphin 的公共系统属性内置了落标监控配置,您可以在创建标准集时引用系统属性,则该标准集下创建的数据标准会默认继承每个系统属性的监控配置。此外,您也可以在创建数据标准时自定义新增质量监控规则,针对该标准映射到的所有资产对象,都可以在质量规则配置页面一键引用已经在数据标准处配置好的监控,既能实现一次配置批量复用,也能保证质量监控的配置更符合数据标准的定义。
1) 元数据监控
- 标准集配置-新建属性时,选择引用公共属性-系统属性-数据类型/数据分类/数据分级
- 在该标准集下新建数据标准时,会自动生成对应的元数据监控规则
2) 内容质量监控-系统属性预置
- 标准集配置-新建属性时,选择引用公共属性-系统属性-值域/是否唯一值/是否可为空值/是否可为空字符串
- 在该标准集下新建数据标准时,如果填写了对应属性值,则会根据填写的属性值自动生成对应的数据质量监控规则而无需手动配置;如:“值域”属性填写为:>0~<100,则生成的监控规则中,规则配置会自动填充,校验规则默认为“异常行数<=0”,可手动修改
- 特殊的,不同属性值会对应不同的校验规则,部分场景下需要自行补充校验规则,如“是否可为空”属性填写为“是”时,校验规则可根据要求配置不同的空值率。
3) 内容质量监控-自定义新建
- 创建数据标准时,在“监控规则”部分可以自定义新增质量监控规则
- 标准发布成功并生成映射关系后,针对每一个映射到的资产对象,可以在其质量规则配置页面,直接引用数据标准已经配置好的规则
- 后续规则的变更,只需要在数据标准部分进行统一维护,变更信息会自动同步到引用数据标准监控创建的质量监控规则,而无需手动适配修改,以降低配置成本
四、结语
本期为您介绍数据标准监控的分类和配置方式,下一期,我们将为您揭晓配置好的监控规则如何生效以及如何查看监控结果,敬请期待哦~