「数据架构」数据模式/纲要,数据结构和数据模型有什么异同

简介: 「数据架构」数据模式/纲要,数据结构和数据模型有什么异同

在讨论了数据架构和数据结构之后,接下来的问题是数据架构和数据结构之间的区别是什么?数据模式、数据结构和数据模型是如何正式命名的

多年来,人们曾多次尝试正式命名特定的数据结构以及包含这些数据结构的数据模型。这些名字大多以某种方式与信息系统的Zachman框架相关。然而,在命名数据结构的类型、数据结构覆盖的主题区域和包含数据结构的数据模型之间产生了混淆。其结果是一系列混乱的数据结构和数据模型名称,它们构成了一个完全不同的数据资源。

一种更好的方法是正式命名每个数据模式(数据纲要),根据数据模式名称和主题区域正式命名数据结构,然后根据数据模型中包含的数据结构正式命名数据模型

模式是一种图表表示;一个结构化的框架或计划;大纲数据模式是数据结构的图表表示。数据模式只不过是一种数据结构。数据结构是组织数据资源中数据的排列、关系和内容的表示。它与正式的数据名称、全面的数据定义和精确的数据完整性规则直接相关,必须加以记录。数据结构是组织的数据资源中用于特定目的的特定数据模式的表现形式。

随着数据库在20世纪中期出现,数据库专业人员确定了两种数据模式。内部数据模式表示数据存储在数据库中的方式,外部数据模式表示数据被数据库外部的应用程序使用的方式。注意名称朝向物理数据库。

由于内部数据模式和外部数据模式往往有很大的不同,并且可以为相对较少的内部数据模式开发多个外部数据模式因此第三个概念数据模式被定义为内部数据模式和外部数据模式之间的公分母。这个术语已经被使用、误用和滥用到现在还不清楚概念数据模式到底代表什么。

为了给这三种数据模式带来更多的含义和理解,内部数据模式被重命名为物理数据模式外部数据模式被重命名为业务数据模式概念数据模式被重命名为逻辑数据模式。这些更有意义的名称还建立了业务到逻辑到物理数据模式开发的顺序,在所有正式的数据资源设计中都应该遵循这个顺序。

随着越来越多的业务专业人员开始参与数据资源设计并开始使用数据规范化技术,出现了许多关于哪些数据实际上正在被规范化(normalization)的问题。传统的数据规范化技术和数学方法并没有为业务专业人员提供足够的理解。这些问题的答案是业务数据模式正被规范化为逻辑数据模式

然而,业务数据模式的数据规范化并不容易或直接导致逻辑数据模式的开发,因为数据规范化本质上是将数据分开的。没有正式的技术可以将类似的数据放在一起,例如所有员工数据放在一起,所有学生数据放在一起,等等。缺乏正式的技术是当今许多公共和私营部门组织中出现的巨大数据差距的开始。

通过添加数据视图模式(这是数据规范化的结果)解决了该问题。然后根据需要组合各个数据视图模式,以确保将类似的数据(如employee、student等)分组在一起。数据优化过程的目的是防止正在开发的许多不同的数据。结果的顺序是业务数据模式规范化为数据视图模式,然后优化为逻辑数据模式,最后再非规范化为物理数据模式

在分布式数据处理出现之前,这四个模式序列一直工作得很好,这导致了对数据如何分布和非规范化的混淆。通过在逻辑数据模式和物理数据模式之间添加部署数据模式,解决了这种混淆。逻辑数据模式通过一个称为数据去优化的过程部署到部署数据模式。

结果的顺序是业务数据模式,规范化为数据视图模式,优化为逻辑数据模式,非优化为部署数据模式,非规范化为物理数据模式,如下图所示。这是目前在正式数据资源设计中使用或应该使用的五种基本数据模式。


这五种基本数据模式对于组织数据资源的详细设计非常有效。然而,关于概念数据模式的含义和使用的词汇挑战仍然存在。概念数据模式可以是业务模式、业务模式的泛化、逻辑模式的泛化、任何以强力物理数据库开发为借口的东西等等。由于数据管理开始转向业务,概念数据模式没有什么意义,因此需要定义一个对业务专业人员有意义的术语。

通过定义战略数据模式和战术数据模式,解决了这一问题。这些术语对业务专业人员非常有意义,因为他们很容易理解战略和战术活动。简单地说,战略数据模式表示执行级透视图,战术数据模式表示管理级透视图

战略和战术数据模式本质上是逻辑性的,并且基于组织对其运行所在的业务世界的感知。它们被放置在逻辑数据模式上,如下图所示。战略数据模式可以更详细地开发以生成战术数据模式,而战术数据模式可以更详细地开发以在称为数据模式专门化的过程中生成逻辑数据模式。类似地,逻辑数据模式可以推广到战术数据模式,在一个称为数据模式推广的过程中,战术数据模式可以推广到战略数据模式。


该图显示了数据模式的两个主要部分。一般数据模式包括战略和战术数据模式,它们本质上是一般的。详细的数据模式包括业务、数据视图、逻辑、部署和物理数据模式,这些模式在本质上是详细的。完整的排列被称为三层五模式概念。

问题总是出现在是否应该有八个更通用的数据模式来表示业务、数据视图、部署和战术和战略级别的物理数据模式。答案是,它们可能毫无意义,或者不如形式数据模式有用。业务数据模式的任何泛化都将与业务主题区域或业务功能相关。物理数据模式的任何泛化都与硬件和系统软件管理有关,例如数据文件或数据库的集群。数据视图架构和部署数据架构的泛化没有意义。因此,这些数据模式没有定义或开发。

上面已经正式命名和定义了五个详细的和两个通用的数据模式。这七个正式的数据模式名称可以加上主题区域的前缀,以提供正式的数据结构名称,如设施战略数据结构、车辆战术数据结构、人力资源业务数据结构、员工逻辑数据结构、学生物理数据结构等。使用这些正式的数据结构名称有助于业务专业人员和数据管理专业人员正确地设计、开发和管理组织的数据资源。

数据模型不仅仅是数据结构。数据模型必须包括正式的数据名称、全面的数据定义和精确的数据完整性规则。当数据结构与其他三个组件组合时,生成的数据模型将使用相同的命名约定进行正式命名。例如,相应的数据模型名称将是设施战略模型、车辆战术数据模型、人力资源业务数据模型、员工逻辑数据模型和学生物理数据模型。请注意,尽管战略和战术数据模型的细节较少,但它们仍然包含数据名称、数据定义和数据完整性规则组件。

数据管理专业人员如果希望正确设计、开发和管理组织的数据资源,就必须正式命名数据模式、数据结构和完整的数据模型。它们必须在单个组织范围的数据体系结构中开发正式的数据结构和数据模型名称。他们必须使用正式的流程来规范化、优化、去优化和去规范化数据。它们必须使用形式化过程来进行数据模式泛化和数据模式专门化。否则会导致混乱、数据差异增大以及数据资源不足以支持组织的业务信息需求。

相关文章
|
6天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
51 7
|
6天前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
20 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
149 66
|
2月前
|
设计模式 安全 Java
HashMap底层原理:数据结构+put()流程+2的n次方+死循环+数据覆盖问题
假如有T1、T2两个线程同时对某链表扩容,他们都标记头结点和第二个结点,此时T2阻塞,T1执行完扩容后链表结点顺序反过来,此时T2恢复运行再进行翻转就会产生环形链表,即B.next=A;采用2的指数进行扩容,是为了利用位运算,提高扩容运算的效率。JDK8中,HashMap采用尾插法,扩容时链表节点位置不会翻转,解决了扩容死循环问题,但是性能差了一点,因为要遍历链表再查到尾部。例如15(即2^4-1)的二进制为1111,31的二进制为11111,63的二进制为111111,127的二进制为1111111。
HashMap底层原理:数据结构+put()流程+2的n次方+死循环+数据覆盖问题
|
1月前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
47 0
|
1月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
2月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
43 5
|
3月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
3月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。