元数据最常见的定义是:关于数据的数据。元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。他描述了数据本身,如数据库、数据元素、数据模型;数据表示的概念,如业务流程、应用系统、软件代码、技术基础设施;数据与概念之间的关系。它有助于处理、维护、集成、保护和治理其他数据。
元数据可以确保组织识别私有的或敏感的数据,能够管理数据生命周期,以实现自身利益,满足合规要求,减少风险敞口。如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、如何在系统中流转、谁有权访问它。如果没有元数据,组织就很难管理好数据。
ISO/IEC 11179元数据注册标准提供了旨在精确数据定义,在异构环境中实现以元数据为驱动的数据交换。
一、元数据概要
1、业务驱动因素
元数据有助于采用一致的方式表示信息,简化工作流程以及保护敏感信息。可靠良好的元数据可以:
通过识别冗余数据和流程提高运营效率;
防止使用过时或不正确的数据;
改善数据使用者和IT专业人员之间的沟通;
创建准确的影响分析。
元数据管理不善将导致冗余的数据、不一致的数据元素定义、数据滥用、元数据版本冲突等。
2、目标和原则
元数据管理的目标包括:记录和管理与数据相关的业务术语,确保理解和使用数据内容的一致性;确保元数据的质量、一致性、及时性和安全;提供标准途径,使元数据使用者能够访问元数据;使用元数据标准以实现数据交换等。
元数据管理的原则包括:组织承诺、战略层级、企业视角、潜移默化、质量责任、审计活动、持续改进。
3、基本概念
(1)元数据与数据
元数据也是一种数据,元数据与非元数据的划分与数据所代表的抽象级别有关。为了管理元数据,组织不应该担心理论上的区别,应该关注元数据需求,重点关注元数据用来做什么以及源数据,比如创建新数据、了解现有数据、实现系统之间流转、访问数据、共享数据等。
(2)元数据的类型
元数据通常分为:业务元数据、技术元数据和操作元数据。
业务元数据主要关注数据的内容和条件,主要包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法、业务规则、有效的值域及其定义。常见的业务元数据有:数据集、表和字段的定义和描述、数据模型、业务规则、数据质量规则、数据血缘、数据标准、有效值约束、数据的安全级别、相关方联系信息等。
技术元数据提供有关数据的技术细节、存储数据的系统以及在系统内核系统间的数据流转过程的信息。常见的技术元数据有:物理数据库表名和字段名、字段属性、访问权限、ETL作业详细信息、数据血缘文档、恢复和备份规则、源到目标的映射文档等。
操作元数据描述了处理和访问数据的细节。常见的操作元数据有:调度异常处理、审计结果、错误日志、抽取历史和结果、补丁和版本的维护计划、清洗标准、数据共享规则等。
(3)元数据的来源
元数据的来源很多,大多操作型元数据在处理数据时生成,可以对现有系统中的数据进行逆向工程,从现有的数据字典、模型、流程和文档中收集业务元数据。元数据的主要来源有:应用程序中元数据存储库、业务术语表、商务智能工具、配置管理工具、数据字典、数据集成工具、数据库管理和系统目录、数据映射管理工具、数据质量工具、字典和目录、事件消息工具、建模工具和存储库、参考数据库、服务注册以及其他元数据存储。
(4)元数据架构的类型
元数据管理解决方案管理了元数据的生命周期,包括:元数据的创建和采集;元数据的存储、元数据的集成、元数据交付、元数据使用、元数据的控制和管理。
常见的元数据架构类型有:集中式元数据架构、分布式元数据架构、混合式元数据架构、双向元数据架构。
集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本。
分布式元数据架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库。
混合架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据,重要的标准化元数据以及来自通过自手工来源添加的元数据。
双向元数据架构允许元数据在架构的任何部分中进行更改,然后将变更从存储库同步到其原始源以实现反馈。
二、元数据管理活动
1、定义元数据战略
元数据战略描述组织应如何管理其自身元数据,以及元数据从当前状态到未来状态的实施线路。开发元数据需求,可以帮助阐明元数据战略的驱动力,识别潜在障碍并克服它。制定元数据的战略步骤如下:
(1)启动元数据战略计划;
(2)组织关键利益相关方访谈;
(3)评估现有元数据资源和信息架构;
(4)开发未来的元数据;
(5)制定分阶段实施计划。
2、理解元数据需求
元数据需求的内容是需要哪些元数据和哪种详细级别。元数据的需求主要有:更新频次、同步情况、历史信息、访问权限、存储结构、集成要求、运维要求、管理要求、质量要求、安全要求等。
3、定义元数据架构
元数据管理系统必须具有从不同数据源采集元数据的能力,设计架构时应确保可以扫描不同元数据源和定期的更新元数据存储库,系统必须支持手工更新元数据、请求元数据、查询元数据和不同用户组查询。
组织根据具体的需求设计元数据架构。建立公共元数据存储库通常有三种技术架构方法:集中式、分布式和混合式。
(1)创建元模型
创建一个元数据存储库的数据模型是定义元数据战略和理解业务需求后的第一个设计步骤。
(2)应用元数据标准
元数据应遵循在元数据战略中以定义的对内和对外的标准,数据治理活动应监督元数据标准的遵从情况。
(3)管理元数据存储
实施控制活动以管理元数据环境。这些活动本质是可管理的、可监控的、可报告的、可预警的、有作业日志的,同时可以解决各种已实施的元数据存储库环境的各种问题。控制活动有:作业调度和监控、备份恢复、性能调优、安全管理、质量管理、培训等。
4、创建和维护元数据
元数据是一些列过程创建的,并存储在组织中的不同地方,为保证高质量的元数据,应把元数据当做产品来进行管理。
(1)整合元数据
集成过程中从整个企业范围内收集和整合元数据,包括从企业外部获取的数据中的元数据。
(2)分发和传递元数据
元数据可传递给数据消费者和需要处理元数据的应用或工具。元数据通常与商务智能有关,所以,元数据的范围和流转常与商务智能同步。在企业中有时CRM、ERP系统中也需要整合元数据信息。
(3)查询、报告和分析元数据
元数据存储库应具有前端应用程序,支持查询和获取功能,满足各类数字资产管理的需求,比如变更影响分析、血缘分析等。
三、工具
管理元数据的主要工具是元数据存储库,包括整合层和手工更新的接口。元数据可以手动输入,也可以通过专门的连接器从其他各种源提取,还要提供与其他系统交换元数据的功能。
四、设施指南
使用渐进的步骤建设实施受控的元数据管理环境,可以减少组织的风险,并便于用户接受。存储库的内容在设计上应该是通用的,而不只是反映源系统的数据库设计。应基于易理解的元数据模型与企业领域专家共同设计,规划设计时应考虑集成元数据,以确保数据使用者无须关注数据源的差异。元数据存储库包含当前的、计划的和历史版本的元数据。
五、元数据治理
组织应确定管理元数据生命周期的具体需求,并开展元数据治理工作以满足这些需求。
1、过程控制
元数据治理需要通过多个不同阶段和状态的决策来确定业务术语和定义,如一个候选术语从申请审批到发布再到更新或删除的全生命周期的各个节点。需要将元数据战略集成到软件的开发生命周期中,确保变更过的元数据及时得到收集,以确保元数据保持最新。
2、元数据解决方案文档
元数据的主目录包括当前作用域中的源和目标。元数据资源面向技术及业务用户。元数据解决方案文档主要包括:元数据管理实施状态、源和目标元数据存储、留存和保持的版本,质量声明或警告、敏感信息和数据源的移除或脱敏策略等。
3、元数据标准和指南
在数据交换时,元数据标准是必不可少的。元数据的ISO标准为工具开发人员提供了指导。
4、度量指标
元数据管理实施的有效性可以根据元数据本身的完整性、与其关联的日常管理操作以及源数据应用情况来度量。
(1)元数据存储库完整性。将企业元数据的理想覆盖率与实际覆盖率进行比较。
(2)元数据管理成熟度。根据能力成熟度模型(CMM-DMM)建立元数据成熟度的指标。
(3)元数据使用情况。通过存储库访问次数衡量用户对元数据的使用情况和接受程度。
(4)主数据服务数据遵从性。主数据服务上的元数据帮助开发人员决定新的开发任务可以使用哪些现有服务。
(5)元数据文档质量。质量指标可以通过自动和手动两种方式评估。自动评估方式包括对两个源执行冲突逻辑的比较,测量二者匹配程度以及随时间推移变化的趋势;手动评估包括基于企业质量定义进行随机或完整的调查。
(6)元数据存储库可用性。正常运行的时间、处理和查询的时间。
(7)业务术语活动。使用、更新、定义解析、覆盖范围。
六、元数据在大数据中的应用
现在越来越多的数据以非结构化格式存储,且这些数据来源于组织内外部,从而形成数据湖。数据湖中的成功数据管理依然依赖于管好元数据。
元数据标签应在采集时应用于数据,然后元数据可以用来标识可访问的数据湖中的数据内容。大部分采集引擎采集数据后进行数据剖析,数据剖析可以识别出数据域、数据关系和数据质量问题,并打上标签。采集数据时,识别到敏感或隐私数据时应添加元数据标签。