数据目录
大家对于数据目录非常的熟悉了,有点类似于图书馆的目录。数据目录作为元数据的清单,向用户提供数据的可访问性,状态和位置等等信息。在过去的相当长的一段时间,数据目录是作为数据管理和数据治理的工具。
对于大多数数据leader来说,首要任务之一就是建立数据目录。
数据目录应包含的功能有:
去哪里寻找数据?
数据重要吗?
数据的内容是什么?
数据的关联性如何?
如何使用这些数据?
但是,随着数据操作的成熟和数据分析的日益复杂,传统的数据目录已经无法满足这些要求了。
数据目录的不足
尽管数据目录具有记录数据的能力,但是让用户探索数据的能力不足,对于数据质量的问题也没有做根本的解决。
主要原因有三个:
1、缺乏自动化
2、无法随着数据的增长进行扩展
自动化能力
传统的数据目录和治理方法通常依靠数据团队来繁重地进行手工数据输入,随着数据资产的增加,他们不断的更新目录。
这种方法不仅耗时,而且需要大量的人工操作。对于数据从业人员,数据治理是一项持续的战斗,需要更多的自动化来提高效率。
随数据变化而扩展的能力
数据目录在梳理结构化数据时效果很好,但是最新的情况已经发生了改变。非结构化数据变得越来越重要。
非结构化数据的特点是没有预定义的模型,必须经过多次转换才能使用。
最重要的是,未来不应该仅仅是简单地描述数据,还要从数据使用的角度来理解数据。
对于这些变化我们需要扩展的能力,不然将举步维艰。
传统的数据目录在接收状态下管理元数据,但是数据一直在变化,数据的实际状况就会越来越失去控制。
现在,数据趋向于自我描述,也就是在单个包中包含了数据,也包含了数据的元数据。
如何解决这些问题呢?
数据目录2.0 = 数据探索
除了对数据进行分类之外,元数据和数据管理策略还必须结合数据探索的过程。这是一种实时了解分布式数据资产运行状况的新方法。
目前的大部分元数据治理方案也采用了这种架构。
数据探索服务通过根据一组特定使用者对数据的摄取,存储,聚合和使用方式,提供对特定领域的动态了解,
从而取代了对数据目录。
与数据目录一样,有着标准和交互操作能力。但是与数据目录不同,数据探索可以实时了解数据的当前状态。
数据探索可以解决的问题:
- 最新的数据集是什么?哪些数据集可以弃用?
- 上次更新该表的时间是什么时候?
- 谁有权访问这些数据?
- 此数据的上游和下游依赖是什么?
几个重要的功能点:
自动化的数据探索服务
数据团队应该能够在没有专门的支持团队的情况下轻松利用其数据目录。数据工具的自助服务,自动化和工作流程编排消除了数据管道各个阶段之间以及过程中的孤岛,使人们更容易理解和访问数据。更高的可访问性自然会导致更多的数据采用,从而减轻数据工程团队的负担。
数据血缘
数据探索很大程度上依赖于自动表和字段的血缘关系来映射数据资产之间的上游和下游依赖性。
血缘有助于在正确的时间显示正确的信息,并绘制数据资产之间的连接,这样可以更好的管理数据何时中断的问题。
数据质量监控
需要对各个阶段对于数据的缺失,错误等等问题进行监控,这应该是一个监控平台,但发生问题时,能及时的找出原因。
强大的数据探索依赖于自动化和可扩展的数据管理。因此,要在企业中真正实现数据探索,就需要重新考虑如何对数据目录进行升级。
只有了解数据的状态以及如何在整个生命周期的各个阶段使用它们,我们才能相信数据。