引言
如果Google可以在几秒钟内在整个互联网上交付搜索结果,那为什么在我的组织中寻找东西时会遇到很多麻烦呢?-我从不喜欢没有效用的元数据
一、元数据是什么
根据DAMA国际数据管理知识体系(DAMA- dmbok2),元数据的通用定义“关于数据的数据”。与图书馆中的卡片目录的概念类似,元数据包括关于技术和业务流程、数据规则和约束以及逻辑和物理数据结构的信息。它描述数据本身、数据表示的概念以及数据和概念之间的关系。要理解元数据的用途,可以想象一个大型图书馆,里面有数十万本书籍和杂志,但没有卡片目录。如果没有卡片目录,在图书馆找到一本书即使不是不可能,也是很困难的。没有元数据的组织就像没有卡片目录的图书馆。
“显然,在这个意义上,这是关于数据的数据。我们都知道,一个人的数据是另一个人的元数据。所以这有点令人困惑”。元数据传统上关注的是技术元数据,它详细描述了数据的结构及其所在位置,在管理数据时支持数据,并帮助用户社区访问和集成数据。引用数据提供已知的词汇表并创建业务和操作上下文以及语义,它也是元数据。“元数据就是一切。这取决于你如何想象它,也取决于你如何发现它。它完全支持数据,而且在很多方面,它将是你拥有的大量数据。”
二、元数据的类型
描述性元数据是有关资产的元数据,包括其标题,创建者,主题,来源,关键字等。
内容分类元数据详细说明了数据资产的内容和含义。这包括关系,数据模型,实体,业务词汇表,受控词汇表,分类法和本体。
管理元数据详细说明了如何访问和使用数据资产,包括沿袭,结构,审计和控制以及保存信息。
使用情况元数据指如何使用数据以及如何控制数据,包括用户,权限,机密性和敏感性。
这四种元数据的应用会根据你使用的环境略有不同。
Adams提供了一个使用金字塔的操作系统的示例,报告位于顶层,事务数据位于第二层,然后功能数据位于第三层,主数据位于第四级,结构数据和参考数据作为金字塔的基础。该结构中不包含的数据类型可能是市场营销、外部数据、财务信息或CRM数据使用的数据湖:
这变得很复杂,所以我们将讨论如何简化它。我的观点是,应该从用户的角度出发,应用场景,在这个背景下看待它,并适当地界定它的范围。”
三、元数据的重要性
元数据回答关于数据的关键问题:
•数据是可发现的吗?
•可以理解吗?
•它可以被访问吗?
•是可用的吗?
元数据管理的成功表现在一个团队如何参与并使信息与组织的业务和操作环境保持一致。DMBoK2说,像其他数据一样,元数据需要管理。随着组织收集和存储能力的增加,元数据管理的作用也越来越重要。要成为数据驱动,组织必须是元数据驱动的。
四、成功的元数据管理
要管理元数据,首先要建立一个将数据与业务和操作上下文一致的框架,这样元数据就可以在以下领域支持数据治理:
•组织影响
•功能和接口
•项目和平台
•数据存储库
1、组织影响
元数据将关键的“数据”转化为关键的“信息”。关键信息是提供关键绩效指标(kpi)的数据+元数据。试问这样一个问题:更好地理解你的数据会改变什么?让人们参与进来需要理解元数据如何在满足公司目标的同时为最终用户解决问题。我们希望能够这样说,我这么做了,业务就会变得更好。为了产生更大的影响,要避免使用“数据语言”,使用企业能够理解的语言。例如,企业不会要求提供“词汇表”。相反,他们会要求“客户的单一视图,跨业务部门进行整合和协同。使用通俗语言的另一个好处是,人们认为它是有益的,而不是增加工作量。
2、功能和接口
必须赋予所有用户发现信息并将其应用于业务的能力,共享关键信息,并在可用时访问自动化流程。
•发现和理解:目录搜索门户允许用户发现可用的数据,将数据放在上下文中,并了解谁可以访问它,以及如何这样做。
•沟通和共享:用户需要能够沟通他们所生产的产品,并使其可供更广泛的消费。完整的数据描述对于遵从性和一致性是必要的,但是必须是面向用户的语言。术语“ETL处理”对于IT用户来说可能足够了,但是“GDPR遵从性”等术语也应该可用,以便业务用户能够访问相同的信息。
•获取和集成:获取和集成取决于用户和应用的角度。管理元数据通过明确数据类型、格式和访问权限,使数据使用者能够访问数据并将数据集成到其环境中。配置元数据对于执行数据准备或ETL非常重要。应用程序编程接口(API)元数据向程序员展示如何将数据集成到应用中。
•集成和自动化:交互式元数据支持系统间通信和协同的自动化过程。
3、项目和平台
元数据支持报告和可视化,使管理层成员做出更好的决策。元数据支持业务转换,使业务增长。标签是至关重要的,这样数据就可以在组织内流动,并以创新的方式使用。一旦人们理解了数据,人们利用这些数据得出他们甚至不知道的见解。
4、数据存储库
现有的信息体系结构启用或禁用可用元数据的深度、范围和质量。关于存储库的讨论更多是由企业架构驱动的,而不是用户需求和业务优先级。“它决定了你未来能做什么,也决定了你今天不能做什么。”
五、参考体系结构
设计数据架构时,建议关注数据如何围绕组织架构流动,而不是关注特定的系统。从数据的类型及其所在位置开始,并表示广泛的应用程序和系统边界。包括与外部人员共享的数据。虽然了解组织内部发生的事情很重要,但从风险的角度来看,当谈到风险时,更重要的是了解组织外部发生的事情。如果一开始业务用户觉得数据架构设计太复杂,业务用户无法理解,可以稍微简化一下。重要的是让人们加入进来。
六、数据治理
通常被忽视的是,治理元数据是用于数据的业务智能(BI):关于元数据的元数据。元数据将业务策略、数据策略、数据管理和操作与数据治理联系在一起。在我的生态系统中,我的元数据的状态如何?这是一个让人难以理解的古怪概念。企业架构和数据参考模型是一种尝试,旨在将治理策略向下深入和理解。
元数据可以为治理提供价值,例如:
•我怎么知道我做的正确?
•什么是“好”?
•我们是否部署了最佳实践?他们定义吗?
•该数据是否被充分标记为“受治理的数据”?
七、能力建设
随着市场上竞争因素的不断演变和变化,能否迅速应对这些挑战就意味着成功与失败的区别。开发新的功能,扩展新的应用以满足需求及控制风险,需要以不可能预先预测的方式使用数据生成报告的能力,如果这是你的需求,那么你就需要标记良好的数据,让你能够进行透视、按需模式的活动,以及非常灵活的视角。