元数据是什么?怎么管?

简介: 元数据是什么?怎么管?

元数据怎么管?

我敢打包票,小羊羊也没加入到我的知识星球里,否则的话也不会来问我,因为星球里的内容足够解释她所有的问题

不过小羊羊来问了,我还是得一本正经地回答好,不能辜负了她的期望,也正好给大家分享分享。

元数据怎么管?对于一个没接触过的人来说,简直是一个噩梦。因为理解元数据已经很艰难了,更别说管理元数据。而且身在大厂的小羊羊,很有可能在做元数据管理系统。

在这个时候,最先要做的,其实要做三件事情:

1、彻底弄清楚什么是元数据,什么是元数据管理;
2、查清楚是否有相关标准,用专家的智慧当做指导,防止自己跑偏了;
3、找到业内样例,作为对(chao)(zuo)(ye)考(de)

我们今天就按照这个逻辑一一说清楚。

什么是元数据?什么是元数据管理?

鉴于我在之前用人话解释过什么是元数据,元数据的种类有哪些,这里就不再赘述了,人话版点我。所以这次就引用一下权威

元数据,就是“关于数据的数据”。

它描述了数据本身(例如,数据库,数据元素,数据模型),数据表示的概念(例如,业务流程,应用程序系统,软件代码,技术基础结构)以及数据和概念之间的连接(关系)

元数据可帮助我们了解数据、系统和业务流程,有助于处理、维护、集成、保护、审核和
管理其他数据

                                                                        --来自于:DMBOK-元数据管理

那元数据怎么管理呢?管理肯定要先分类。元数据可以分为业务元数据、技术元数据和操作元数据。当然,还有一个有争议的管理元数据。权威说明在这里哈:

分类之后呢?那就简单了,梳理目录、ID、命名、属性等内容,设计注册、启停用、版本等基础功能,剩下的就是做增删改查了。

元数据管理标准

不过,为了防止我们刚才想的不够全面,还是得找一个标准参考一下。这边都准备好了:

《GB_T 18391.1-2009 信息技术 元数据注册系统(MDR)》

这里面还给出了元数据注册系统的总体模型,分为概念层和表示层,具体如下:

简单理解,就是我们需要在概念层(这个元数据是什么?)阐述清楚,然后再写清楚这个概念的具体值(这个元数据有什么?),这才构成了一个完整的元数据。

举个例子:

概念:长度计量单位

 

值域:千米、米、分米、厘米、毫米、微米、纳米。

另外,一个元数据实体肯定还有其他的各种属性,比如名称、类型、精度、含义、版本、归口单位、分类、状态等等。

在标准里,元数据属性都罗列了几十个,我们在实际工作中用不到这么多。

 

单是元数据生命周期的状态,标准中就定义了首选、标准、合格、已记录、候选、未完成、失效、被替代、历史、应用这么多。

在做系统的时候,我们只需根据实际情况进行选择即可。

业内案例-快手元数据管理

概念弄清楚了,标准也有了,接下来的任务就是参(chao)考(ta)一(zuo)下(ye)了

我手上正好有一个行业案例《快手元数据平台化建设及应用场景》,你看看这写的:多么诱人啊?

不要太爽了!我给你截图自己看:

从上图可以看出,他们主要抽象出了实体、属性和关系以及唯一ID四部分内容。

快手把主数据分为四类:基础、安全、资产和衍生元数据。

他们直接从大数据组件、各个管理系统和数据平台中自动接入元数据,然后进行解析、同步,并转换成标准定义,把基础信息存入关系型数据库,把关系存到图数据库,并提供查询和分析服务。

最后,还基于这些元数据做了一系列的数据应用,什么数据地图、指标模型管理、资产管理等。

这里还给出了几个元数据应用的例子:

比如上面这个找数的应用。当我们的表和字段多到一定程度,找到合适的数就变得非常非常困难了。因为会有大量的类似的表和字段充斥在数据库里,你根本无法确定应该用哪个。

但是如果有元数据就好办多了,你只需要确定好概念,后面一系列的库、表、字段,就自然会带出来了

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
41600 22
|
SQL 分布式计算 数据管理
12款开源数据资产(元数据)管理平台选型分析(一)
12款开源数据资产(元数据)管理平台选型分析(一)
5220 2
|
SQL 存储 数据采集
【技术分享】元数据与数据血缘实现思路
【技术分享】元数据与数据血缘实现思路
7558 0
|
7月前
|
存储 数据可视化 数据挖掘
终于有人把数据仓库讲明白了!
在企业数据分析中,数据仓库作为核心枢纽,通过整合财务、销售、生产等多系统数据,解决指标不一致、历史数据缺失等问题。它具备面向主题、集成、历史、时变和稳定五大特性,区别于传统数据库,专为复杂分析和决策支持设计,助力企业实现数据驱动。
终于有人把数据仓库讲明白了!
|
8月前
|
数据采集 数据可视化 安全
终于有人把数据治理讲明白了
在数字化转型浪潮下,企业常面临数据混乱、标准不一等问题。本文深入浅出解析“数据治理”核心概念,探讨如何通过“拉式”与“推式”两种策略,构建高效、可持续的数据管理体系,提升数据质量与应用价值,助力企业实现精准决策与业务创新。
|
3月前
|
数据管理 BI 定位技术
元数据、数据元、元模型:三个你似懂非懂,但必须弄清的概念
本文通俗解析数据治理中易混淆的三大概念:元数据、数据元与元模型。通过实际工作场景,厘清三者关系——元数据是数据的“说明书”,数据元是语义一致的“标准单元”,元模型则是构建数据体系的“顶层设计”。助你从混乱中建立清晰认知,提升数据理解与管理效率。
|
8月前
|
存储 SQL 监控
实时数仓和离线数仓还分不清楚?看完就懂了
本文通俗易懂地解析了实时数仓与离线数仓的核心区别,涵盖定义、特点、技术架构与应用场景,助你快速掌握两者差异,理解数据处理的“快慢之道”。
实时数仓和离线数仓还分不清楚?看完就懂了
|
7月前
|
存储 前端开发 关系型数据库
终于有人把数据仓库讲明白了
数据仓库不是大号数据库,更不是BI附属品。它通过整合多源数据、统一标准,让数据更易查、易用,真正服务于业务分析与决策。本文带你厘清数据仓库的本质、架构与搭建步骤,避开常见误区,实现数据价值最大化。
终于有人把数据仓库讲明白了
|
存储 分布式计算 安全
数据生命周期管理:从生成到销毁,数据的“生死”之旅
数据生命周期管理:从生成到销毁,数据的“生死”之旅
2277 6
|
8月前
|
数据采集 存储 监控
数据治理怎么做?一文讲清数据治理全流程
数据治理是企业系统化管理数据的核心战略,涵盖数据质量、安全、合规与价值挖掘。通过明确责任、制定标准、优化流程,确保数据全生命周期可控、可信、可用,助力企业提升决策效率、降低风险,并释放数据潜在价值。
数据治理怎么做?一文讲清数据治理全流程