Dataphin(智能数据建设与治理)是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助企业用中台方法论治理企业级好数据,构建起质量可靠、消费便捷、生产安全经济的企业级数据中台。了解详情>>
企业在设计、采购、生产、销售、物流、售后等业务环节,往往会存在大量的信息不规范、不统一、不及时的情况,导致数据资产无法在核心业务流程中高效流转和消费。
通过集成各系统,将数据融合打通形成数据流之外,非常重要的一环,是在企业内充分贯彻同一套数据标准,无论是后端设计研发,到前端业务运营消费,还是企业内跨部门、跨组织、跨角色协作,通过数据标准管理和实施,都能基于统一的术语和统计口径进行表单定义以及指标设计,以促进数据流通和消费。
常见数据标准问题
根据中国信通院的定义:数据标准,是指保障数据的内外部使用与交换的一致性和准确性的规范性约束。更直接点来说,数据标准是用于描述公司层面需共同遵守的数据含义和业务规则,通常从业务、技术、管理三方面进行定义。
然而,数据标准需求缺乏统一管理、不同系统间标准制定依据各异、资产建设缺乏和标准的关联,使得数据标准的建设和应用都面临很大困难:
- 建设:多源异构数据整合缺乏统一的约束口径,数据开发效率低
数仓开发人员无法快速理解数据背后的实际业务含义,需要和业务人员反复沟通,理解成本高;不同业务人员对于同一个指标口径的理解不一致,容易出现认识偏差,影响分析决策结果。
- 管理:各系统分散管理,人工保障规范,数据质量难以提升
不同主题域由不同负责人进行开发和维护,导致规范不一致,数据可信度降低;由于缺乏有效的工具监督,规范定义和开发实现隔离,无法保证数据开发符合标准规范,数据质量难以提升,导致频繁的数据重构,管理成本高。
- 使用:缺少元数据信息及使用引导说明,数据消费难度大
数据的使用不仅需要明确数据详情,还需要参考元数据信息,以便数据使用方快速找到需要的数据并评估数据可用性。由于缺少必要的数据定义及使用说明,造成数据经常被误用滥用,数据消费难度大。
【点击图片收看视频讲解】
由此,我们需要一套功能全面、操作便捷的产品,来帮助企业中的数据标准管理人员/组织,提升企业数据标准化程度和数据资产可信度。
Dataphin 数据标准模块在标准建设、标准管理、标准应用三大核心环节,提供了统一的产品化能力,并结合质量监控能力实现对资产对象的落标稽核,帮助企业解决数字建设管理过程中遇到的问题。
·Dataphin数据标准功能介绍·
数据标准怎么建?
数据标准模板,一次定义多次复用
相较于传统模式下用Excel等文件分散管理数据标准的方式,Dataphin支持在线创建数据标准,结合标准模板和标准目录的能力,支持一次定义多次复用和分类管理,减少了定义不统一、理解不一致、落地执行难等问题的产生,真正实现了标准的统一管理,让开发和治理工作都有据可循。
不同企业对于数据标准的定义不同,应用范围和使用场景也有所差异,为了满足不同组织对数据标准的灵活定义诉求,Dataphin 支持创建标准模板,用于管理创建数据标准时需要填写的属性信息。通过定义每一个标准属性的填写规范(如是否必填、填写方式、取值范围约束等),保证基于该模板创建的相同类型的数据标准都遵循统一的结构定义,便于后续的传播和使用。
如:应用于中间层字段的“基础标准”,需填写:业务属性(标准名称、标准编码、描述、业务含义)、技术属性(数据类型、值域)、管理属性(标准制定部门、应用业务部门);应用于应用层指标的“指标标准”,除了填写“基础标准”需要的信息外,还需额外填写关联维度、统计周期、统计口径等技术属性。其中,针对“标准制定部门”和“应用业务部门”属性,需要保证不同标准的取值一致,便于后续的统计汇总。在 Dataphin 中,就可以通过将该属性的填写方式设置为“下拉单选”并指定取值范围来源于“部门”码表的方式实现,不仅大大提升了标准填写人员的效率和体验,也避免操作不一致造成的标准规范不一致。
此外,Dataphin 也支持快捷将已经梳理好的标准明细文件导入系统进行统一管理,或者将已创建的数据标准批量导出,批量修改后再一次性录入更新。只需要下载标准模板并配置冲突策略,就可以实现数据标准的批量录入和更新,大大提升操作效率。
如何高效管理数据标准?
全生命周期管理,让多方协同更清晰
Dataphin支持数据标准的全生命周期管理。创建完成后默认生成“草稿态”标准,确认填写无误后可以提交标准上线申请并生成对应的审批任务。审批通过前,标准的状态为“发布中”。
此外,Dataphin支持设置标准审批模板,以适配不同管理范围下标准的审批。标准上线后根据设置的标准生效时间,自动生成“待生效”“已生效”、“已失效”的标准。上线后标准的支持在线修订,会生成“修订中”的版本;为了保障生产链路稳定性,修订中的版本再次发布并审批通过前,不会影响线上“已生效”的标准版本。基于该流程,用户可以实现灵活完整的标准生命周期管理。
灵活的数据标准分类管理
随着企业治理工作的深入,沉淀的数据标准可能会越来越多,需要对标准进行分类管理,便于查找和统计。此外,部分敏感字段对应的数据标准可能会存在一些不便于公开的机密信息,需要控制这类标准的查看详情权限。针对上述诉求,Dataphin 支持最多五级标准目录管理;此外,“标准集”作为一种特殊的标准目录,除了分类的作用外,还承载标准查看权限管控和审批流程定义的作用。数据标准需要先唯一归属一个标准集,并跟随标准集归属到不同的标准目录,实现灵活分类管理。
实际应用中,建议一张表(如客户信息维度表)或一个业务实体(如客户、商品)对应一个标准集,并根据业务相关性将标准集上挂到不同的标准目录下;其次,每个标准类型对应一个标准模板(如基础标准、指标标准),从而简化标准规范定义的工作,同时也能满足灵活、多样化的管理诉求。
参考数据管理,有约束才够准确
数据标准常常需要和参考数据一起使用,才能更好地适配业务需求。常见的参考数据包括码表、词根。码表可用于约束标准属性字段的取值范围,提升标准定义的准确性;词根常用作词缀并作为数据表、字段等研发对象命名的参考依据,以提升命名规范性减少数据消费时的不一致性和理解误差。Dataphin数据标准模块支持码表和字根的创建和管理,通过简单的界面操作即可完成创建,也支持批量导入导出,大大降低了标准管理人员的操作成本。
码表可在创建标准时作为属性取值范围的约束配置被引用。词根可应用于表字段命名规范和研发链路中的关联标准推荐。系统将基于已输入的字段描述,自动分析并与词根缩写进行相似度匹配,将匹配结果拼接后返回作为默认的字段名称,无需重复定义,既能更大程度上保障字段名称的规范性,也能减少定义不统一等问题的产生。
数据标准怎么用?
落标映射,将数据治理前置到研发链路
标准创建完成后,需要和对应的资产对象关联起来才能真正实现其应用价值,实现对资产的规范性约束。落标映射关系是指资产对象和数据标准之间的关联关系,根据关联关系是否生效,可以分为:有效映射关系、无效映射关系。
有效映射关系是指数据标准和资产对象之间基于配置已确认过的、正确的映射关系。通过映射关系列表,可查看每个资产对象应该遵循哪些数据标准,或每个数据标准当前被哪些资产对象所关联应用。有效映射关系会参与到后续的落标监控环节,评估字段定义是否符合标准约束。
无效映射关系可以用于管理根据落标映射规则执行结果生成的预期外的映射关系,不会参与落标监控评估环节,因此也不会生成落标评估明细。某些场景下,根据映射规则配置,无法准确识别到应该遵循的数据标准,会生成错误的映射关系,产生监控不通过的评估结果从而对研发产生干扰。另外,也存在某些非核心字段或指标,虽然映射到了数据标准,但是不需要参与落标评估,也可以用无效映射关系来管理。
Dataphin支持多种映射关系配置方式,包括:在研发链路中手动关联、创建落标映射规则定时或手动生成映射关系、在数据标准页面批量上传映射关系。
- 研发过程关联:在编辑逻辑表或物理表时,可以快捷给每个字段配置“关联标准”,表对象提交发布后,就会针对开发表和生产表自动生成和指定标准之前的关联关系。
- 落标映射规则:落标映射规则通过定义标准属性值和资产对象元数据字段值的匹配关系,实现标准和资产对象的映射关联,自动生成映射关系。根据映射关系更新要求,还可以配置规则执行的频率,包括自动执行和手动执行。
- 手动批量导入:Dataphin 也支持导入 Excel 文件的方式实现手动批量导入映射关系,只需要下载配置模板,根据配置说明提示填写配置文件后上传,并根据需要配置更新策略,即可完成映射关系的批量导入。
下面,我们通过一个例子来进一步理解 Dataphin 映射规则的配置。
首先,我们需要圈选出进行映射匹配的标准和资产对象来源范围:
- 标准:来自于“测试标准集”的所有“已生效”状态的标准
- 资产对象:所属表名包含“test”字样的所有字段
接着,我们需要配置标准和资产对象的关联映射条件:标准名称 = 字段名称;
最后,我们需要配置该规则的执行时间和频率等信息。
通过上述配置,系统可以自动执行该映射规则,圈选出相应范围的标准和资产对象并进行匹配。规则执行完成后,我们就可以在资产目录及规则执行明细页面清晰的看到某个资产关联到了哪些标准,以便参考映射到的标准定义进行开发,将数据治理前置到研发链路。
落标评估,从源端保障数据规范统一
映射关系配置完成后,如何判断映射成功的资产对象是不是真正的遵循了对应的标准?基于元数据采集和数据质量监控功能,Dataphin 提供了完善的数据标准落地评估能力,据监控类型的不同可分为“元数据监控”和“内容质量监控”。Dataphin 当前仅支持通过引用内置落标监控的系统属性来实现快捷的监控配置,从而降低对标准管理和录入人员的技术能力要求,同时也能降低操作成本,提升管理效率。
元数据监控用于评估“资产对象的元数据字段值”和“标准定义的属性值”是否一致,如:数据类型、数据分类、数据分级,因此需要配置参与监控的对象元数据字段以及相对应的标准属性字段。此外,还需要配置校验通过逻辑(如:值相等则通过)和校验过程中是否大小写敏感。
内容质量监控是指针对标准映射到的资产对象(如字段、指标),评估其具体内容(如字段值)是否符合标准的约束,如:值域是否在指定范围内、字段值是否唯一等,将结合 Dataphin 数据质量模块的功能来实现。
落标监控评估的结果统一在落标评估明细页面呈现。落标评估明细提供了两种查看视角:标准管理人员可以从从标准视角查看每一个标准映射到的字段列表以及每个字段的监控结果;资产负责人可以从资产对象视角查看自己负责的资产是否遵循了相关标准的定义以及整体的核标通过率。针对不满足关联标准定义的资产,标准管理人员可以推动研发人员可以尽早进行整改,从源端保障数据规范性和统一性。
结语
总体来说,作为资产治理的重要一环,Dataphin 数据标准功能为标准的统一管理提供了灵活的产品化能力支持,同时也能减少人工监控成本,为标准的落地执行提供了强有力的保障,以提升企业整体数字能力建设的标准化成熟和资产的健康度。
Dataphin官网介绍:https://www.lydaas.com/dataphin
Dataphin公开咨询钉钉群:23381533