近年来,主动元数据(相对于被动元数据)促进了新型元数据及其管理方式的发展。元数据是一种标签系统,可以被人类和计算机读取,并允许搜索引擎使用定义的元数据字段来定位数据。
被动元数据使用技术信息提供了一个基本的识别系统,但不提供重要的上下文,并且元数据被认为是静态的(半永久性标签)。幸运的是,现代数据堆栈促进了活动元数据的发展,它支持新的元数据描述系统和更多的上下文,并且被认为是动态的(意味着只要数据发生变化,元数据就会更新)。
使用活动元数据的系统依赖于 机器学习 和自动化。主动元数据管理系统使用软件来促进用于正在进行的项目和实时客户服务的元数据的持续更新。
它还可以在数据通过数据管道时跟踪数据并报告它所经历的任何更改。一个活跃的 元数据管理 系统需要支持元数据标签的连续处理和更新的自动化。
活动元数据是实时从源中获取的,允许管理层识别、跟踪、理解和管理数据资产。 活动元数据 建立信任并使数据民主化。
活动元数据平台
现代企业需要开发 元数据策略 这可确保他们的数据不会被孤立,并且他们的元数据(被动和主动)准确、一致且可靠。
一个活跃的元数据平台允许元数据在整个过程中顺畅快速地流动 数据栈. 它是一个比被动元数据更复杂的过程,涵盖了一系列元数据描述系统。
一个活跃的元数据平台是一个面向行动的系统,它总是在线的,并且不断地收集元数据,而不需要手动输入。它不断处理元数据以互连数据集和文件,并从中开发商业智能。它使用机器学习来处理元数据并开发可操作的情报。
一个活跃的元数据系统随着人们使用它和获得更多的元数据经验而变得更加智能。
不同类型的元数据
有几种类型 元数据, 所有这些都可能有助于增加企业数据资产的价值。根据活动元数据,已开发的各种元数据类型在描述数据内容时支持更大的灵活性。
在最基本的层面上,元数据应该传达有关内容、上下文和结构的信息。下面列出了一些更常见的元数据类型。
技术元数据: 这种类型的元数据通常与被动元数据一起使用,包括数据库表的名称和列名,以及数据类型、涉及数据的 ETL 作业、引用数据的索引等。技术元数据包括:
文件格式
文件名
图式
数据源
地理位置
业务元数据: 它提供定义、业务规则、数据使用限制和数据上下文。业务元数据很容易被非技术人员理解,并提供了一种通用语言。业务元数据包括:
时间线
业务需求和模型
业务流程
指标
商业术语
操作元数据: 这种形式的元数据包括有关何时以及如何转换或创建数据的信息。它提供了有关如何使用数据的更多详细信息。此元数据的类型包括以下信息:
更新日期
装船日期
血统
数据状态
流程元数据: 这是存储在数据仓库或数据湖中的操作元数据的细分。进程元数据提供了将数据加载到存储中的过程的详细信息。此类信息在出现问题时很有用。流程元数据可能包括:
错误日志
作业执行日志
审核结果
出处元数据: 这种元数据类型跟踪数据的来源和随时间的任何变化。它提供数据可追溯性,因此可以发现并删除不准确的数据,从而提高 数据质量. 出处元数据可能包括以下信息:
权威
更改日志
所有权记录
版本控制记录
结构元数据: 这提供了有关数据物理组织的信息——关系、类型、版本和其他特征。结构数据可用于创建和维护数据字典。一些形式的结构元数据是:
数据元素类型
表名
记录大小
管理元数据: 这种类型的元数据提供用于 数据治理. 它有助于管理和建立数据的可信度。管理元数据可以包括有关保存、权利和使用的信息。它提供了对谁可以使用它们以及如何使用这些文件的控制。管理元数据可以包括:
版权信息和许可协议
权限管理技术数据
用户限制
访问控制信息
社交元数据: 这提供了有关人们如何使用数据的有用信息。使用社交元数据提供的上下文,企业可以决定减少、维持或增加广告或生产力。社交元数据包括以下信息:
作者信息
查询次数最多的表
使用频率
管理活动元数据
管理活动元数据可以快速高效地搜索数据,提供做出数据驱动决策所需的洞察力。企业应该有管理其元数据的策略。如果没有智能策略,数据可能会变得极其混乱,使研究人员难以确定数据的准确性,并导致他们质疑其可靠性。
确保在活动元数据程序中包含以下内容:
敏感数据的自动分类: 敏感数据(如个人数据)使用自动化进行保护。有关隐私(和其他问题)的法律法规会自动适当分类,没有人为错误的风险。
当用户可以查看所有现有数据时,数据才能真正民主化。但是这种主动的元数据管理允许企业自动对敏感数据进行分类,隐藏其中的一些数据,同时使其余数据仅对授权用户可见。(可以自定义有关敏感数据的策略。)
清除过时数据: 主动元数据管理支持的一个有用过程是系统地删除旧的、过时的数据。可以设置它以确定文档或数据批次的最后使用日期和/或访问它的员工数量。
如果在 60 天内未访问,则数据资源可以自动存档。如果在最近 90 天内未访问过,则可以自动清除。
下游最终用户警报: 可以设置主动元数据管理,以在数据库被修改或检测到潜在异常时直接通知相关人员。
如果发现差异,可以快速追溯到创建者,然后立即将错误通知该人和/或更正错误。
识别最常用的数据资产: 主动元数据管理可用于为每个数据资源开发定制的流行度分数。可以根据查询日志的使用信息、数据来源和 商业智能仪表盘. 最常用和最相关的数据资源应该更频繁地出现在搜索结果中。
元数据管理的未来
BigID 的首席执行官兼联合创始人 Dimitri Sirota 预测,活动元数据中心的使用将成为 下一步发展 在活动元数据中。
的目标 活动元数据中心 是互连组织的数据并充当其搜索引擎。它将能够访问组织的整个数据生态系统,并将通过自动化和机器学习加速数据解决方案。
活动元数据中心使用机器学习支持的数据目录。它旨在促进元数据的编排和丰富。此外,从各种来源获取的元数据与当前存储的数据相互关联,并与其他数据管理工具集成。活跃的元数据中心允许交换、更新和共享元数据。
更多内容请关注 OushuDB 小课堂