谈谈建立数据目录的6个步骤-阿里云开发者社区

谈谈建立数据目录的6个步骤

2022-12-16 934

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据目录是所有数据的系统性列表，以表、文件、报告等形式存在于公司的各种源系统中。

一、什么是数据目录

数据目录是所有数据的系统性列表，以表、文件、报告等形式存在于公司的各种源系统中。它的工作原理很像时装目录,但它没有详细介绍泳装或鞋子，而是从一家公司的ERP、人力资源、财务、电子商务系统以及社交媒体源获得信息。目录还显示了所有数据实体的位置。

数据目录包含关于每个数据片段的大量关键信息，比如数据的概要(关于数据的统计或信息摘要)、沿袭(数据如何生成)以及其他人对它的看法。目录是数据分析师、数据管理员、数据科学家和其他人员寻找和理解相关数据集以建立洞察、发现趋势和为公司确定新产品的切入点。

二、为什么需要数据目录

据Forrester Research称，只有14%的企业利益相关者充分利用了客户洞察。这是因为大多数公司无法访问他们的数据。

发生这种情况通常是因为存在许多不容易挖掘的数据源。以一个公司的典型数据栈为例:

数据目录解决了这个问题。它使数据易于找到,并提供了跨数据库的每个数据块的全面视图，并确定了关系。此外，它还为组织的数据治理计划奠定了基础。

三、构建数据目录的过程

步骤1:访问所有数据库的元数据

构建数据目录的第一步是收集数据的元数据。数据目录使用元数据来标识数据表、文件和数据库。数据目录遍历公司的数据库，并将元数据(而不是实际数据)抽取到数据目录。数据目录可以抓取的数据库类型有:

■数据管理平台

•关系数据库——Oracle、SQL Server、MySQL、DB2等；

•数据仓库- Teradata, Vertica等；

•对象存储；

•云平台- Google Big Query, MS Azure Data Lake, AWS – Athena & Red Shift；

•非关系型/ NoSQL数据库- Cassandra, MongoDB；

•Hadoop Distributions。

■分析和商业智能平台

•商业智能平台，如Tableau, Qlik, Power BI, Sisense等；

•分析应用程序。

■自定义应用程序

步骤2:构建数据字典

第二步是构建数据字典或将现有的数据字典上传到数据目录中。数据字典包含每个表或文件及其所有元数据实体的描述。可以通过基于网络的软件或使用excel电子表格协作创建数据字典。

下面是一个数据字典的例子：

步骤3:分析查看数据统计信息

下一步是对数据进行分析，以帮助数据使用者快速查看和理解数据。这些概要是解释数据的信息摘要。例如，数据库的配置文件通常包括表的数量、文件的数量、行数等。对于一个表，概要文件可能包括列描述、列中的最高值、列的空计数、不同的计数、最大值、最小值等等。

数据目录的表概要文件示例：

步骤4:标记数据之间的关系

标记关系是至关重要的下一步。通过这个步骤，数据使用者可以跨多个数据库发现相关数据。例如，分析师可能需要合并客户信息。通过数据目录，她发现五个不同系统中的五个文件都有客户数据。有了数据目录的帮助，可以有一个实验区域，在那里可以连接所有数据，清理数据，然后使用合并的客户数据来实现业务目标。

标记为表“Accounts”的关系示例：

有许多标记关系的方法，数据关系可以通过以下几种方式进行识别和标记:

1.通过人的知识；

2.通过先进的算法找出连接。例如，在一个列名为“vendor”的表中，有一个实体“Amazon”。’ 在另一个表中，列V1也有一个实体‘Amazon’。“算法会发现这些表之间存在关联。

3.通过智能查询。一些开发人员根据经验知道不同数据集之间的联系。可以检查它们的查询日志，然后解析它们以标记关系。

步骤5:构建血缘关系

在标记关系之后，数据目录将构建沿袭。数据沿袭的可视化表示有助于跟踪数据从源头到目的地的过程。它解释了数据流中涉及的不同流程。因此，它使分析人员能够追溯错误的根源。通常，ETL (Extract, Transfer, Load)工具用于从源数据库中提取数据，转换和清理数据，并将其加载到目标数据库中。数据目录通过解析这些工具来创建沿袭。一些可以解析的ETL工具包括SQL解析、Alteryx、Informatica、Talend等。

步骤6:组织数据

在表/文件中，数据以技术格式排列，而不是以对业务用户最有意义的方式排列。因此，我们需要在数据资产上进行人工协作，以便业务用户能够发现、访问和信任数据资产。下面是一些技术，通过这些技术我们可以很容易地发现数据，包括标签、根据使用量组织数据、根据特定用户的需求组织数据、通过自动化的高级算法来组织数据。

四、数据目录的易访问和安全性

对于高使用率的数据消费者来说，数据目录应该容易被web应用程序、移动应用程序、Android和IOS应用程序访问。数据目录确保适当的安全性和治理，由于数据目录包含了所有数据，所以必须设置护栏来保护最敏感的文件。数据目录应该具有以下特性：基于角色的安全性、谁在什么时间访问什么数据的信息、审计和加密。

五、构建数据目录的周期

构建数据目录所需的时间取决于要编目的数据库数量。爬行和剖析可以在一两天内完成。在相关的数据库人员帮助下，上传现有的数据字典、构建沿集和标记数据库关系可以在一周内完成。如果一个组织必须编录10个数据库，可能需要4到5周的时间。大公司可以在大约三个月内建立自己的数据目录。一个中等规模的公司可以在2到4周内建立一个。数据目录是当今数据驱动的组织所需要的新的动态和敏捷的工具，它可以作为所有数据需求的单一参考来源。

谈谈建立数据目录的6个步骤

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

谈谈建立数据目录的6个步骤

热门文章

最新文章

相关电子书