谈谈建立数据目录的6个步骤

简介: 数据目录是所有数据的系统性列表,以表、文件、报告等形式存在于公司的各种源系统中。

   一、什么是数据目录

   数据目录是所有数据的系统性列表,以表、文件、报告等形式存在于公司的各种源系统中。它的工作原理很像时装目录,但它没有详细介绍泳装或鞋子,而是从一家公司的ERP、人力资源、财务、电子商务系统以及社交媒体源获得信息。目录还显示了所有数据实体的位置。

   数据目录包含关于每个数据片段的大量关键信息,比如数据的概要(关于数据的统计或信息摘要)、沿袭(数据如何生成)以及其他人对它的看法。目录是数据分析师、数据管理员、数据科学家和其他人员寻找和理解相关数据集以建立洞察、发现趋势和为公司确定新产品的切入点。

   二、为什么需要数据目录

   据Forrester Research称,只有14%的企业利益相关者充分利用了客户洞察。这是因为大多数公司无法访问他们的数据。

0f1c696a3ba8681adbef5cc4e2d1d8e7.png

  发生这种情况通常是因为存在许多不容易挖掘的数据源。以一个公司的典型数据栈为例:

a933c29418f5ce496f08ad20a24db749.png

  数据目录解决了这个问题。它使数据易于找到,并提供了跨数据库的每个数据块的全面视图,并确定了关系。此外,它还为组织的数据治理计划奠定了基础。

   三、构建数据目录的过程

   步骤1:访问所有数据库的元数据

   构建数据目录的第一步是收集数据的元数据。数据目录使用元数据来标识数据表、文件和数据库。数据目录遍历公司的数据库,并将元数据(而不是实际数据)抽取到数据目录。数据目录可以抓取的数据库类型有:

   ■数据管理平台

   •关系数据库——Oracle、SQL Server、MySQL、DB2等;

   •数据仓库- Teradata, Vertica等;

   •对象存储;

   •云平台- Google Big Query, MS Azure Data Lake, AWS – Athena & Red Shift;

   •非关系型/ NoSQL数据库- Cassandra, MongoDB;

   •Hadoop Distributions。

   ■分析和商业智能平台

   •商业智能平台,如Tableau, Qlik, Power BI, Sisense等;

   •分析应用程序。

   ■自定义应用程序

   步骤2:构建数据字典

   第二步是构建数据字典或将现有的数据字典上传到数据目录中。数据字典包含每个表或文件及其所有元数据实体的描述。可以通过基于网络的软件或使用excel电子表格协作创建数据字典。

   下面是一个数据字典的例子:

7dbabb22f2b12975989d6251d4d037c9.png

   步骤3:分析查看数据统计信息

   下一步是对数据进行分析,以帮助数据使用者快速查看和理解数据。这些概要是解释数据的信息摘要。例如,数据库的配置文件通常包括表的数量、文件的数量、行数等。对于一个表,概要文件可能包括列描述、列中的最高值、列的空计数、不同的计数、最大值、最小值等等。

   数据目录的表概要文件示例:

a02bca86695c3286274aab0435e6a65d.png

   步骤4:标记数据之间的关系

   标记关系是至关重要的下一步。通过这个步骤,数据使用者可以跨多个数据库发现相关数据。例如,分析师可能需要合并客户信息。通过数据目录,她发现五个不同系统中的五个文件都有客户数据。有了数据目录的帮助,可以有一个实验区域,在那里可以连接所有数据,清理数据,然后使用合并的客户数据来实现业务目标。

   标记为表“Accounts”的关系示例:

cb1bd7db671709d2c01c3e09d0f8f880.png

   有许多标记关系的方法,数据关系可以通过以下几种方式进行识别和标记:

   1.通过人的知识;

   2.通过先进的算法找出连接。例如,在一个列名为“vendor”的表中,有一个实体“Amazon”。’ 在另一个表中,列V1也有一个实体‘Amazon’。“算法会发现这些表之间存在关联。

   3.通过智能查询。一些开发人员根据经验知道不同数据集之间的联系。可以检查它们的查询日志,然后解析它们以标记关系。

   步骤5:构建血缘关系

   在标记关系之后,数据目录将构建沿袭。数据沿袭的可视化表示有助于跟踪数据从源头到目的地的过程。它解释了数据流中涉及的不同流程。因此,它使分析人员能够追溯错误的根源。通常,ETL (Extract, Transfer, Load)工具用于从源数据库中提取数据,转换和清理数据,并将其加载到目标数据库中。数据目录通过解析这些工具来创建沿袭。一些可以解析的ETL工具包括SQL解析、Alteryx、Informatica、Talend等。

   步骤6:组织数据

   在表/文件中,数据以技术格式排列,而不是以对业务用户最有意义的方式排列。因此,我们需要在数据资产上进行人工协作,以便业务用户能够发现、访问和信任数据资产。下面是一些技术,通过这些技术我们可以很容易地发现数据,包括标签、根据使用量组织数据、根据特定用户的需求组织数据、通过自动化的高级算法来组织数据。

   四、数据目录的易访问和安全性

   对于高使用率的数据消费者来说,数据目录应该容易被web应用程序、移动应用程序、Android和IOS应用程序访问。数据目录确保适当的安全性和治理,由于数据目录包含了所有数据,所以必须设置护栏来保护最敏感的文件。数据目录应该具有以下特性:基于角色的安全性、谁在什么时间访问什么数据的信息、审计和加密。

   五、构建数据目录的周期

   构建数据目录所需的时间取决于要编目的数据库数量。爬行和剖析可以在一两天内完成。在相关的数据库人员帮助下,上传现有的数据字典、构建沿集和标记数据库关系可以在一周内完成。如果一个组织必须编录10个数据库,可能需要4到5周的时间。大公司可以在大约三个月内建立自己的数据目录。一个中等规模的公司可以在2到4周内建立一个。数据目录是当今数据驱动的组织所需要的新的动态和敏捷的工具,它可以作为所有数据需求的单一参考来源。

相关文章
|
9月前
|
数据采集 人工智能 监控
零代码改造!LoongSuite AI 采集套件观测实战
在 AI 时代,随着模型和应用侧的快速演化,对于推理过程,成本和性能显得尤为重要,而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点,并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入,低成本地进行全链路的大模型可观测。
932 92
零代码改造!LoongSuite AI 采集套件观测实战
|
11月前
|
数据采集 人工智能 Java
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
AI Agent技术架构的演进正在重塑软件工程实践方式。开发者可通过智能编程助手提升效率,也可依托专业框架构建智能体系统。技术生态呈现多维度发展,涵盖高代码与低代码方案,并支持Java和Python等多语言。新型开发范式如AutoGen和LangChain降低了开发门槛。LoongSuite作为可观测采集套件,助力企业高效构建AI时代可观测体系,推动标准化数据规范,提升系统稳定性与运维效率。
|
6月前
|
搜索推荐 数据处理 UED
1688新品上架没流量?这套“打标爬升”法则,让你的产品快速被看见的实用指南!
本文详解1688新品运营策略,通过“新品标签快速形成”与“四阶段数据爬升”,助力店铺实现新品快速曝光与转化。涵盖精准选品、老客破零、四阶段执行计划及成长积分规则,全面提升新品竞争力。
|
8月前
|
运维 监控 安全
2025年10月远程控制软件评测:流畅度、群控能力,教你如何选最好用的远程桌面工具
2025年主流远程控制软件深度评测:基于性能、画质、安全与场景适配多维分析,推荐连连控为专业首选。其全平台兼容、4K高帧率、智能低延迟及批量管控能力突出,适合设计、运维等高要求场景,助力企业高效协同与数字化转型。
|
10月前
|
JSON 缓存 API
孔夫子旧书网 API 实战:古籍与二手书数据获取及接口调用方案
孔夫子旧书网作为国内知名古籍与二手书交易平台,其数据对图书收藏、学术研究及电商系统具有重要价值。本文详解其API调用方法,涵盖认证机制、搜索参数、数据解析及反爬策略,并提供可直接使用的Python代码,助力开发者合规获取数据。
|
机器学习/深度学习 存储 自然语言处理
SeACo-Paraformer
【6月更文挑战第14天】
1100 6
|
数据可视化 项目管理 UED
如何进行有效的优先级管理:6大模型解析
优先级管理看似简单,但要真正做到高效、精准,却需要方法和技巧的支撑。3分钟了解6种优先级管理方法。
1241 0
如何进行有效的优先级管理:6大模型解析
|
消息中间件 测试技术 领域建模
DDD - 一文读懂DDD领域驱动设计
DDD - 一文读懂DDD领域驱动设计
51242 6
|
网络协议 Ubuntu Unix
Linux 下使用 socket 实现 TCP 服务端
Linux 下使用 socket 实现 TCP 服务端
403 0
|
新零售 消息中间件 监控
消息中间件系列一、消息中间件的基本了解
一、消息中间件的定义:   没有标准定义,一般认为,采用消息传送机制/消息队列 的中间件技术,进行数据交流,用在分布式系统的集成 二、为什么要用消息中间件? 解决分布式系统之间消息的传递。电商场景:  用户下单减库存,调用物流系统,系统扩充后服务化和业务拆分。
5037 109