什么是数据、元数据、主数据和参考数据?

简介: 什么是数据、元数据、主数据和参考数据?

这是彭文华的第115篇原创

   曾经有段时间给甲方爸爸做项目的时候,他们看我长的显小,喜欢挑战一些问题,其中我遇到最多的就是“什么是元数据”。遇到这种问题既不能啰嗦,也不能太过于专业,否则领导会不开熏

   另外,元数据、主数据也都是数据治理的核心中的核心。今天就给大家把这几个名词给彻底解释清楚。


为什么要取这么多名字?

我初入数据行业的时候也被一堆的名词给绕晕了。什么元数据、技术元数据、业务元数据、操作元数据、主数据、参考数据、事务数据、业务数据、维度、度量、指标等等等等,那时候简直一脑门子的官司。

那时候就是刘姥姥进大观园,看啥都新鲜,看啥也都不懂,长期处于信息过载的状态。那时候也没有人帮我整理整理,自己也没时间去系统性的学习,只是硬着头皮边用边学,慢慢的加深理解。其实这些东西都是内在关联的。我梳理了一下,这样看就能清楚很多了:

   我们知道,面对大量信息的时候,最好的办法就是归类、合并、分解,把它们用一个结构组合起来,这样就能很容易的理解。其实所有的数据也是一样,我按照数据的记录、管理和分析三个用途,对这些数据名词进行归类,这样是不是就清晰多了?


记录类数据

  • 什么是事务数据?

事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。

  • 什么是业务数据?

业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。

  • 什么是日志数据?

早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。


什么是元数据

元数据(Meta-data)是描述数据的数据。如何理解这句话?以小学课文《翠鸟》为例, 我告诉你这是一只翠鸟,如果你没见过翠鸟,你肯定无法理解翠鸟是个什么东西。但是如果是这样描述一下呢?

翠鸟喜欢停在水边的苇秆上,一双红色的小爪子紧紧地抓住苇秆。它的颜色非常鲜艳。头上的羽毛像橄榄色的头巾,绣满了翠绿色的花纹。背上的羽毛像浅绿色的外衣。腹部的羽毛像赤褐色的衬衫。它小巧玲珑,一双透亮灵活的眼睛下面,长着一张又尖又长的嘴。

   上文在描述翠鸟,怎么描述的呢?从这几个方面:停在那儿、小爪子、颜色、头上的羽毛、背上的羽毛、腹部的羽毛、体型、眼睛、嘴。

   同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢?

   这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。

   上表在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。

   当然,为了管理方便,我们同样还能将上述元数据进行归类:

  • 与业务规则、流程相关的描述性数据,我们称之为业务元数据;
  • 与存储、访问等技术底层的描述性数据,我们称之为技术元数据;
  • 与数据操作相关的描述性数据,我们称之为操作元数据;
  • 与数据管理相关的描述性数据,我们称之为管理元数据。


   元数据解决什么核心问题?

   如上所述,元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。


什么是主数据

   主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。其实Master Data翻译成“核心数据”可能会更合适,因此主数据也被成为“黄金数据”。这么说吧,其实阿里的One ID就是主数据理念的结果。


   对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。

   所以我们总结一下,主数据一共有以下种类:

  • 与人相关的:用户、客户、公民、病人、供应商、学生等;
  • 与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
  • 与场相关的:地址库、楼盘字典、POI信息等;
  • 与规则相关的:财务的账套等。


   在传统IT企业,甲方公司的主数据可以立一个千万级的项目。国内也有很多公司专门做主数据这个行当。主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:

  • 确定核心业务环节
  • 识别主数据
  • 定义和维护主数据匹配规则(代码规则、ID Mapping)
  • 建立及发布数据标准
  • 主数据的后续维护及更新


什么是参考数据?

   参考数据就是码表。


什么是维度、度量、指标?

可以参考之前分享过的文章:

什么是全量、增量、流水、拉链、快照、维度、缓慢变化维、度量?


怎么理解数据分析、维度和指标?


相关文章
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
27229 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
JSON 机器人 Linux
推荐一款嵌入式Linux开源框架与封装-cpp-tbox
推荐一款嵌入式Linux开源框架与封装-cpp-tbox
327 3
|
存储 数据采集 机器学习/深度学习
主数据管理的前世 今生 未来(一文深入了解主数据管理)(下)
根据Gartner的定义,“主数据管理(MDM)是一种技术支持的规程,业务和IT部门共同工作,以确保企业共享主数据资产的唯一性、准确性、语义一致性和可靠性……”
主数据管理的前世 今生 未来(一文深入了解主数据管理)(下)
|
数据管理
如何精准识别主数据?
如何精准识别主数据?
|
10月前
|
Web App开发 数据可视化 搜索推荐
2024年深受用户喜爱的桌面工作安排软件——6款工具精选
本文介绍了六款桌面工作安排软件:板栗看板、Trello、Any.do、TickTick、Asana 和 Monday.com。这些软件通过集成日历、任务管理和项目管理功能,帮助用户优化工作流程、提升个人和团队的生产力。每款软件都有其独特的优势,适合不同的工作场景和需求,如个人任务管理、团队协作、项目管理和创意设计等。选择合适的工具,可以显著提高工作效率和团队协作效果。
2024年深受用户喜爱的桌面工作安排软件——6款工具精选
|
11月前
|
安全 网络安全 数据安全/隐私保护
智能家居安全:如何保护你的家庭免受网络威胁
在这篇技术性文章中,我们将深入探讨智能家居设备的安全性问题。随着越来越多的家庭采用智能技术,确保这些设备免受网络攻击变得至关重要。文章将涵盖常见的安全风险、预防措施以及如何应对潜在的网络威胁,以帮助读者保护自己的家庭网络安全。
|
机器学习/深度学习 人工智能 安全
安全技术身份验证(Authentication)
【8月更文挑战第10天】
777 1
|
11月前
|
数据采集 机器学习/深度学习 数据挖掘
利用Python进行数据清洗:技巧与实践
在数据科学和分析领域,数据清洗是一项基础且关键的任务。本文将带你了解数据清洗的重要性,并深入探讨使用Python进行数据清洗的多种技巧。我们将通过Pandas库来展示如何处理缺失数据、异常值、重复数据以及数据类型转换等常见问题。文章将提供实用的代码示例和最佳实践,帮助你高效地清洗数据,为数据分析和机器学习项目打下坚实的基础。
|
Java 程序员 数据库连接
Java中的异常处理:理解try-catch块的工作原理
本文深入探讨了Java编程语言中异常处理的核心机制——try-catch块。我们将通过具体示例,详细解释异常的产生、捕获和处理过程,以及如何有效地利用这一机制来提高代码的健壮性和可维护性。
|
数据采集 存储 监控
谈谈从DAMA、DCMM和DGI三大数据治理框架详细了解数据战略规划的关键要素
当前,数据作为新的生产要素提到了关键位置,众多组织认为数据是重要的战略资产。
谈谈从DAMA、DCMM和DGI三大数据治理框架详细了解数据战略规划的关键要素

热门文章

最新文章