谈谈如何理解数据建模也是数据治理的一种形式

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 数据建模是数据治理的一种形式。我们将数据治理定义为“执行和实施”对数据和与数据有关的资产的定义、生产和使用的权威。

   序言

   数据建模是数据治理的一种形式。我们将数据治理定义为“执行和实施”对数据和与数据有关的资产的定义、生产和使用的权威。数据的管理从管理数据的定义开始。这也是交付高质量数据模型的最基本目标——交付满足组织需求的高数据定义的质量。因此,如果您同意我对数据治理的理解,您可能也会同意数据建模本身也是一种治理数据的形式,特别是治理数据的定义。

   数据建模与数据定义有关,对组织的数据有更重要的影响。数据定义的质量直接影响数据生命周期的许多其他方面。数据定义的质量影响数据的生成方式,并直接影响数据在整个组织中的使用方式。也就是说数据定义的质量直接影响数据生产和使用的质量。如果数据定义的质量如此重要,那么我们最好确保执行和加强对定义数据的权限,必须控制如何定义数据的过程。同样,数据建模是必须治理的规程,这使得数据建模成为数据治理的一种形式。

b266b842e46da4c63b9997f22b76dbaa.jpg

   数据管理的三大方面

   面对数据我们只有三个方面可以做。我已经试着让许多人提出一两个不属于这三个行动的其他措施,然而人们利用数据所做的一切都属于这些类别。这些行动包括:定义数据;产生数据;使用数据。

   数据治理的前提是,每个定义、生成和/或使用数据的人都必须对其相关的行为负责。因此,每一个参与这三种行动中的一个或多个的人都将成为数据的管理者;也就是说,他们要对自己的行为负责。事实上,每个人都是数据管家。

   本文将从建模如何影响人们对数据采取的三种措施的角度,将数据建模视为数据治理的一种形式。

   一、控制数据定义

   定义数据可能是这三种行动中最重要的。有效的管理数据定义将提高数据生产质量和数据使用。

   严格遵循定义数据流程的组织似乎需要管理的数据也更少。这可能并不总是事实——但它确实有道理。防止创建重复数据集的组织需要管理的数据更少。了解整个组织中定义的所有数据集的组织通常能够更好的处理自然增长或通过收购或合并增长的数据。

   我们可以通过回答几个简单的问题来考虑如何管理数据定义:

   1.您的组织是否将数据建模作为定义数据过程的一部分?

   2.是否有定义数据必须遵循的步骤的流程?

   3.这些步骤是否包括获得客户对数据定义的验证?

   4.最重要的是:您定义的步骤是否被遵循?

   这些问题集中在管理数据定义的最基本操作上。如果您对第一个问题的回答是“否”,那么您的未建模数据要么是完全未治理的,要么是使用内部开发的工具(如电子表格或数据字典)来记录数据的基本质量的。数据定义的属性包括业务名称、业务定义、有效值和数据设计的常见属性,包括数据类型、位置等。技术数据定义通常交给数据库管理员来构建数据库。

   在非结构化数据、大数据和大量非传统数据源的时代,管理这些数据源的定义并从管理的角度保存这些数据源的清单是很重要的。许多组织认为非传统数据源的定义者就是“数据所有者”。在数据治理中,这些人通常被称为数据管理员或数据管家。

   数据定义和数据建模是有机联系在一起的。数据建模被描述为一系列用于定义支持业务流程的数据需求的过程。数据建模通常侧重于概念、逻辑和物理数据定义,它们分别代表组织在不同抽象级别上的信息组件

模型通常会产生数据库和数据资源,这些数据库和数据资源成为组织信息系统的一部分。

   除了遵循标准的数据建模约定,数据建模最佳实践还包括:1)让正确的人参与定义需求,2)记录适当的数据质量(元数据),3)解决意见和业务理解上的分歧。

   第一个实践要求您能够识别并在建模过程的步骤中涉及适当的人员。《数据治理权利法案》(Data Governance Bill of Rights)中,把让合适的人参与进来是指:找到“正确的”人,在“正确的”时间参与,以“正确”的方式,使用“正确的”数据,做出“正确”的决定,找到“正确”的解决方案。

   第二个实践侧重于将适当的元数据记录为数据建模过程的一部分。数据模型元数据通常包括数据质量的核心定义,包括业务术语、定义、敏感性和规则,以及数据库中数据的物理属性。

   第三种实践需要一个受控的流程来解决关于如何定义数据的业务意见上的分歧。企业管理领域和重要的个人经常有相反或不同的想法,即“数据应该是什么样的”,或者数据应该如何基于他们认为对组织最有利的经验来定义。需要主动地处理这些问题,以在整个团队中建立共同的理解。

5a1c871905095361e18f052ed558d3a3.png

   二、控制数据生成

   产生数据的行为与定义数据的行为直接相关。数据只能在定义数据的同时生成。数据可以手工产生或通过数据采集。数据定义的质量有助于提高对手工数据生成需求的理解。如果负责生成数据的人员不理解数据是如何定义的,那么就很难或不可能满足手工数据生成的需求。由其他数据衍生的数据通常是组织中最关键的数据,同时也是最不容易理解的数据。确保清晰定义如何生成、派生、计算、匹配、排序、组装和分解数据是一种最佳实践。最好的实践是管理如何定义人造数据,并让使用这些数据的人直接通过数据库或他们收到的报告获得该定义。最有价值的商业智能数据是为用户目的而制造和定义的数据。

在工作中产生数据的个人必须对产生的数据负责。这需要对生成数据的过程进行治理。这些流程的治理确保每个生成数据的人都知道并遵循与生成数据相关的规则。在许多情况下,治理还包括共享数据如何使用。

   数据生产与数据建模有着重要的联系。对于一般的业务人员来说,数据建模可能不会对数据的生成产生直接影响。然而,事实却恰恰相反。管理数据建模的组织会产生更高质量的数据。

   组织通常依赖于在整个企业中流动的数据。当数据从数据存储系统移动到数据存储,或者从数据存储移动到商业智能平台时,对于数据的标准和数据的质量都有相应的规范。如果说数据建模是数据定义的质量的核心,则必须使用数据模型中的数据定义,包括物理属性、有效值和业务定义,以确保数据的提供者理解必须如何生成数据。如果没有对数据的详细定义,数据生产者就会尽其所能制造数据,这可能是业务需要的,也可能不是。显然,受治理的数据定义可以提高企业内数据的数据质量。

   组织还依赖于外部产生的数据,以满足特定的业务需求或满足组织接收数据所需的规范。提高外部数据质量的这两种方法。组织要么对其外部数据源有权力,要么没有。当组织有权要求高质量的外部数据,或者它们对外部数据的质量有重大影响时,接收方向数据生产者提供的受治理业务数据定义将极大地提高数据的质量。从对质量没有影响的来源获取数据的组织,通常的做法是使数据与他们的数据规范相一致。拥有高质量的受治理的业务数据定义,还可以使所获得的数据与内部数据规范保持一致。

   高质量的业务数据始于建模时的数据定义。因此,可以说数据建模是数据治理的一种形式。

   三、控制数据使用

   使用数据的行为与定义数据和生成数据的行为直接相关。数据的使用取决于对他们使用的数据的理解。这种理解来自于在数据建模或数据定义过程中进行的高质量的数据定义。

   数据使用的风险包括1)保护敏感数据和2)遵循法规和法律要求的风险管理。让我们分别处理这些风险管理内容。保护敏感数据是一项影响所有业务的要求。敏感数据包括:个人身份信息(PII)、受保护的健康信息(PHI)或知识产权(IP)。

   •PII数据可以单独使用或与其他数据一起用于识别、联系或定位某人。

   •PHI数据是由组织收集的关于健康状态、医疗保健或医疗保健支付的任何数据,可以与特定的个人链接。

   •知识产权数据包括商标、版权、专利、设计权,在某些司法管辖区还包括商业秘密。

   高质量的数据定义包括定义与保护敏感数据相关的规则。这些规则专注于机密或敏感数据的处理。处理规则包括如何共享、打印、分发、传输、使用和讨论敏感数据。数据治理涉及与保护敏感数据相关的规则和流程的执行和实施。

   可审计的遵从性和法规报告始于向负有这些责任的人员提供对他们期望遵循的规则的全面理解。通常,法规遵循意味着组织必须遵守规则、政策、标准和法律。数据治理就是这些规则的执行和实施。

   数据治理要求以一种可理解的方式收集规则、记录规则、批准规则、沟通规则和执行规则。这些操作要求组织实体(数据治理办公室本身)被赋予执行和操作的职责和权力。

   数据使用与数据建模也有着关键联系。我们已经说过,数据建模对定义和生成数据的有直接和积极影响。使用数据的行为也是如此。数据建模以及在建模数据过程中收集的元数据,可以在跨组织使用数据时带来一些关键的改进。其中有三个改进包括:

   1.组织可以提高人们对使用哪种数据的认识。

   2.组织可以提高人们对数据本身的理解。

   3.组织可以提高人们对数据质量需求的认识。

   所有这三种改进都需要与数据建模相关的治理流程。如前所述,这些数据建模流程的治理要求在正确的时间涉及正确的人员,以正确的方式定义数据。正确的方式意味着需要在建模环境中收集正确的元数据。

7f9c21e11a0bbe3e610e9096561b013f.png

   四、将数据治理的重点放在这三个行动上

   数据治理的前提是:组织中所有定义、产生和/或使用数据的人必须1)对这些数据关系的质量负有正式责任,2)遵守与这些关系相关的规则。最后一句话中两个重要的词是关系和规则。

   数据治理运作的前提是,组织中所有定义、产生和/或使用数据的人必须对这些数据关系的质量负有责任,并遵守与这些关系相关的规则。”

数据的关系与人的工作活动相关。根据这个推理,把工作分成三个行动相关的划分是非常有意义的。

   1、数据定义

   数据架构师、数据建模师、数据所有者、系统集成者、数据转换主管、项目经理、业务架构师、分析人员和项目代表是与数据定义相关联的角色。这些人努力工作,以确保他们定义的数据将满足业务需求。

   数据治理可以帮助这些人:对于专注于改进组织如何定义数据的数据治理项目,该项目必须为如何定义数据提供指导方针和监督。这包括开发和实施数据标准、业务术语、数据模型、元数据和数据字典的指导方针。

   2、数据生产

   系统集成商,获取数据的人,以及为了他们的目的和其他人的目的而获取和操作数据的人是与产生数据相关的角色。这些人努力工作,以确保他们产生高质量的数据,以满足业务需求和实现业务目标。

   数据治理可以帮助这些人:对于专注于改进组织产生数据方式的数据治理项目,该项目必须为如何产生数据提供指导方针和监督。这包括制定和实施数据质量、数据获取和大数据管理的指导方针。

   3、数据使用

   报告编写者、分析师、超级用户、数据科学家以及在组织的所有级别使用数据回答问题和做出决策的人是与使用数据相关的角色。这些人努力工作以确保他们使用数据来满足他们的团队和公司的需求和要求。

   数据治理可以帮助这些人:对于专注于改进组织如何使用数据的数据治理项目,该项目必须为如何使用数据提供指导方针、规则和监督。这包括开发和执行数据分类、保护、遵从性和监管报告关注的指导方针。

   对于如何将数据治理应用于这三个行动,有两个基本类别。这两类就是主动式和响应式的数据治理。理想情况下,两者都将在组织内实现。

   主动式数据治理是将治理数据的行为构建到流程中。主动数据治理的是彻底将数据治理考虑添加到系统开发方法中。通过将关注数据治理的活动插入到系统开发方法论的步骤中,可以假定这些步骤将随着方法论的遵循而完成。

   响应式数据治理是开发可重复的流程,并为特定角色指定责任,以便在需要解决与数据相关的问题时作出响应。响应式数据治理是把数据问题收集和解决过程的开发,处理访问敏感数据请求的过程的开发,以及获取启用数据功能包或工具的过程。

   五、使用建模工具建模和管理数据

   数据治理只能在对数据和流程进行建模的组织中有效地完成。它不是一次性的活动;数据治理是一项持续的活动,必须在保证遵从性的同时对更改做出响应。为了建立对GDPR、HIPAA、SOX、PCI DSS等法规的遵从性,企业需要知道哪些数据是敏感的,谁有权访问这些数据,并能够提供关于整个数据沿袭所做的任何更改的详细报告,尤其是跨国企业。组织需要有效地计划、管理、监视和控制对数据的访问,无论数据来自内部还是外部。

   数据建模工具需要包括用于逻辑和物理数据建模(数据架构师)、业务流程和概念建模(业务架构师)的工具、共享模型和元数据存储库以及用于业务词汇和术语的协作门户(Team Server)。能够容易地定义模型和元数据、跟踪对模型和业务术语表的更改、定义企业架构以有效地跨整个组织管理数据,并为数据治理活动建立坚实的基础。

   通过协作功能和对数据模型和词汇表的访问,加快决策过程,并提高整个组织的数据质量。业务分析师和架构师可以定义业务流程,与参与元数据定义工作流的数据专业人员协作,并根据需求在适当的级别访问有关模型和元数据的信息。数据建模师和架构师可以记录和共享模型、元数据和报告,并在统一的企业术语表上与业务涉众协作,这些术语表使用的元数据术语和定义可以跨多个数据库平台和应用程序一致使用。

   数据沿袭显示了数据在组织中的移动。当数据在组织中移动时,它捕获真实的来源,并描述相关的来源、目标和转换。数据建模工具需要创建一个图来显示模型中的这些转换,其中包括关系、非结构化和ETL数据源。通过合并不同的数据源和支持数据沿袭来跟踪数据移动,使数据专业人员能够有效地记录和理解他们的数据环境,并建立一个有效的企业架构,使他们能够实现业务目标。

a5f5c6c8f561e07924d92c48b86fa32c.png

   六、为什么说数据建模是数据治理的一种形式

   事实是,整体而言数据建模本身并不是数据治理。但是数据建模是数据治理的一种形式

   数据建模是一门数据学科。通过数据建模,可以设计组织的数据、减少冗余、遵循标准,并为数据构建对业务有用的定义。数据建模的作用远不止于此。

   数据建模的使用因组织而异。一些组织拥有企业数据模型(EDM),它们被构建来设计整个组织的数据。开发EDM通常是一项艰巨的任务,需要大量的业务和技术人员参与讨论组织的详细数据和信息需求。有些人认为企业模型是开始改进整个组织的数据和数据质量的地方。有些人认为EDM是定义和解决企业整体数据需求的一个步骤。还有一些人认为开发EDM是在浪费时间。有的组织为其内部开发的信息系统和/或数据仓库或业务智能环境中的数据建模数据。通常,这些模型比EDM要小,并且是为特定目的而构建的——尽管许多组织选择重用现有模型的来创建新模型。有的组织购买行业数据模型,遵循所描述的用于生成数据模型的模式,或者在定义、生成和使用数据的设计阶段获取和放置规则。数据建模现在或过去被视为组织数据管理活动的基础。同样,数据建模是关于数据纪律的。

   创建数据模型有很多原因。这些原因包括遵循数据标准、减少冗余、将业务定义用于数据,以及如何更好地定义数据或将数据定义作为重要资产进行管理。

   “毫无疑问,数据建模既是一门艺术,也是一门科学。” 对数据建模的主要原因是为了向组织灌输关于定义数据的规程。

   行业实践表明,数据建模是一种用于定义和分析支持组织信息系统内业务流程所需的数据需求的过程;数据建模的过程涉及专业数据建模师与业务涉众以及数据和信息系统的潜在用户密切合作。

   数据建模大师Steve Hoberman认为,数据建模是学习数据的过程,数据模型是数据建模过程的结果。

   那么,为什么我说数据建模是数据治理的一种形式呢?数据治理是对数据管理权限的执行和强制执行。数据建模可以看作是对数据定义的权限的执行和实施。数据建模的规程包括“正确的”人在“正确的”时间为组织定义“正确的”数据。这就是数据治理的本质。

   七、综述

   数据建模是数据治理的一种形式或者至少是数据治理的一部分,因为它需要纪律,这对于确保数据的设计符合需要是必要的。不为数据建模的组织更难从数据中获得价值,因为它们的数据充满了不一致性和误解。询问任何没有对数据建模的组织,他们的数据是否被治理,答案肯定是“不”。

相关文章
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
10774 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
9月前
|
存储 架构师 NoSQL
一口气讲完数据仓建模方法--数据仓库架构师碎碎念
一口气讲完数据仓建模方法--数据仓库架构师碎碎念
|
SQL 数据建模 BI
数据治理的本质:体系化建模(2)
数据治理的本质:体系化建模
100 0
数据治理的本质:体系化建模(1)
数据治理的本质:体系化建模
122 0
|
数据采集 供应链 监控
【推荐】五分钟搞懂数据治理!!!
【推荐】五分钟搞懂数据治理!!!
360 0
|
SQL 存储 数据可视化
谈谈数据建模的作用
越来越多的公司正在建设数据仓库或数据湖,并开始集中他们的数据或者已经完成了数据集中项目,并正在努力使整个组织的数据服务自助化。
谈谈数据建模的作用
|
机器学习/深度学习 人工智能 算法
谈谈从分析到行动看数据驱动和数据信息的区别
近年来,“数据驱动”这个术语已经被广泛使用,很多人谈论要成为一个数据驱动的组织。
谈谈从分析到行动看数据驱动和数据信息的区别
|
数据采集 存储 监控
谈谈基于DGI框架的数据治理
在大数据和数据科学时代,大多数组织都意识到数据在加速结果方面的潜在力量。然而,大多数人面临的挑战是,不断变化的客户期望和相关需求,以确保准确和可访问的数据,以指导决策,以满足客户的不同需求。
谈谈基于DGI框架的数据治理
|
存储 前端开发
谈谈数据标准和数据模型
标准定义了一个参考框架,强化交互各方之间的信任。例如,当您在加油站加满汽车油箱时,“升”汽油的标准定义将确保您获得的汽油量是您认为的。反过来,“人民币”的标准定义向加油站所有者保证,您正在向他支付您购买的汽油的适当价值。
谈谈数据标准和数据模型
|
数据采集 运维 监控
谈谈典型的数据治理体系框架
以规范的方式来管理企业的数据资产已经被广泛接受和认可,但还需要组织架构、原则、过程和规则,以确保数据管理的各项职能得到正确的履行。
谈谈典型的数据治理体系框架