一 数据治理与数据架构
数据架构侧重于技术和基础设施设计,而数据治理则包括人员、过程、工作流以及支持治理所需的体系结构。因此,尽管数据架构对数据治理至关重要,但它只是更广泛的整体中的一小部分。数据治理和数据架构之间的区别可以比作关于故事中从不同的视角看大象:
“五个老人在看大象。一个人看到大象的尾巴,他认为大象看起来像一根绳子。有人看到树干,就说像蛇;有人看到脚,就说像树干,他们都是对的。”
每个人都从自己独特但有限的位置看到整个大象。我认为,在数据治理方面,很多技术人员常常会感到困惑,一些IT人员将数据架构视为数据治理,但其范围远不止于此。一旦你将组织、流程、人员和文化纳入其中,你就更有可能成功。
数据治理是数据架构发挥作用的总体框架。我认为数据治理是更广泛的,它包括组织、人员和过程,而且在很大程度上创造了一种数据驱动的文化。
数据架构是更广泛的数据治理框架的一部分。
这些概念是相互关联的,因此看起来与数据架构相关的流程可以在数据治理中发挥关键作用。例如,数据输入:如果你在前面输入客户数据,而你输入错误,这就是治理,因为这会影响下游的事情。由治理流程创建的查找表可以更容易地正确输入客户数据,从而支持参考完整性。所以,它在架构、人和过程之间来回穿梭。
数据架构和数据治理“相互促进”,数据治理可以围绕数据架构制定规则,IT部门通常会接受这一点,因为他们喜欢有人可以将这些问题升级。技术通过固有的技术结构或边界提供了手段。你可以在业务方面有一个非常好的规则,说明‘这些是特定领域的有效值’,但除非你的数据架构支持这一点,否则它只是一个规则,人们可以打破规则。因此,架构和治理不仅相互支持,而且还帮助彼此更加有效。
1 对“老”概念的关注与日俱增
对人工智能和预测分析的关注推动了对数据治理和数据架构等基础概念的的复苏,除非你有好的数据,否则你无法做所有这些热门事物。这不是旧与新,或旧学派与新学派;而是你需要这些基础。对于那些在数据行业呆了很长时间的人来说,这似乎是老古董了。投资于架构和治理的公司已经能够更容易地实现一些更新的技术,因为他们有良好的数据基础。而对于有些组织却是一件非常困难的事情。
2 数据治理与数据架构哪个优先
关于从哪里开始有不同的理论,我建议从深入的数据管理成熟度评估开始,评估需要基于一个框架,该框架展示了远景和战略如何与工具和技术相互关联。建议首先遍历评价框架中的每个指标项。这些都是非常简单的问题,但每个指标项里有两个问题就能说明很多问题。
•为什么要这么做,谁在乎?
•解决了什么问题?
•谁将成为你的关键利益相关者?
•谁会成为执行的支持者?
•投资回报是什么?
•已经存在哪些治理组织,涉及哪些人?
•如何衡量哪些数据是好是坏?
•如何追踪结果?
•人们对数据治理有积极的看法吗?
•他们认为这是一种负担吗?
金字塔顶端的那些简单问题是最重要的问题,因为它们驱动着其他一切,工具和技术部分几乎可以成为一个清单。问一些问题,比如“你有什么数据?这些数据存储在哪里?”和“是否存在数据模型?””
不必一开始就做一个巨大的评估。每个问题都是一个很好的开始。客户会得到广泛的一系列问题,以及详细的步骤。对于组织和个人,你们有指导委员会吗?指导委员会有可行动的结果吗?不仅仅是‘是’或‘不是’,还要了解很多细节。
评估的细粒度性质不仅显示了差距在哪里,而且有助于揭示造成这些差距的原因。很多企业都有指导委员会,但却什么都做不了,那么指导委员会是如何建立的呢?数据管理是如何建立的?这两个领域需要同等强大。如果其中任何一项存在差距,那可能是拥有所有的工具、技术和所有的流程,但数据文化缺失。客户得到的最终结果是一个用颜色标识的成熟度评估,有优势的区域用绿色表示,有改进的区域用红色表示。
3 用速赢策略来鼓励强大的数据文化
人们经常会把数据治理视为一种负担,但这并不一定是一种负担。
如何让人们对数据治理感到兴奋?事实上,以快速取胜开始,你可以让人们问,‘我能成为数据治理的一部分吗?’”所以选择“对很多人有益”的小项目。例如,零售商可以定义他们的客户生命周期,记录客户第一次看到产品、购买产品、续订产品以及在社交媒体上告诉朋友时的过程和数据流,以跟踪客户。
如果在所有平台上都获得了电子邮件地址,并且保持一致,就可以跟踪客户,从他们第一次给我们电子邮件地址到他们注册购买计划的时间。如果我们都能沟通,想想这将会有多好。如果我能够从另一个团队获得购买信息,那么超越这些竖井的价值就会变得清晰起来。
这对我有什么好处的问题,这是关于不要让它压倒一切,因为没有人想要这个庞大的项目,将花费大量的时间由别人驱动,但如果你能找到每个人都需要的东西。这就是速战速决,然后人们肯定想要的更多。
4 数据治理与数据架构哪个更重要
下面是关于两家客户的故事,他们分别在成熟度评估的两端着手。
一家公司将他们的商业战略和目标与一些法规和营销活动联系在一起,并且有多个团体支持。这是营销,是工程,是合法的——他们有几个团体想要数据治理。他们有自己的目标,但其他方面都有些薄弱。他们的委员会还没有成立,他们也没有任何现成的工具。
他们的目标很好,但根据评估,他们只有一个绿色区域,其他所有区域都是红色的。他们很沮丧,但是这是最好的方面,因为你有正确的目标。另一家公司的评估显示,他们在技术、架构等方面基本上是绿色的,但他们没有承诺一个共同的目标,也没有在整个团队形成一致的动力。
他们有你能想到的所有工具,一切都就位了。选择一组工具,他们有六个,他们有多个竞争的技术,但他们没有共同的文化认同,那是他们的红色。这是一个很重要的问题。一年过去了,那些有明确的驱动目标和合适的人的公司远远领先,因为他们赢得了人心。
从整体上看,这都是大象的一部分——有些人可能认为他们有数据治理,但他们没有真正考虑围绕它的文化,所以他们还没有完成。最好的出发点是让人们团结起来。当人们有了正确的目标,才能能做任何数据治理和数据管理的事,对吧?
二 数据架构和数据管理
在计算机和互联网的开始时代,使用的数据并不像今天这样多,数据可以很容易地存储和管理,所有的用户和企业在一台计算机上,因为数据从来没有超过19 exabytes的程度,但现在在这个时代,数据每天增加约2.5 quintillions。
大多数数据来自Facebook、Instagram、Twitter等社交媒体网站,其他来源可以是电子商务、电子商务交易、医院、学校、银行数据等。传统的数据存储技术无法管理这些数据。
大数据就是为了处理大而不纯净的数据而产生的。大数据是企业从社交媒体、GPS、传感器等各种来源收集大数据集,并对其进行系统分析,利用一些工具和技术提取有用模式的领域。在分析和确定数据之前,数据架构必须由架构师设计。
1 数据架构设计与数据管理
数据架构设计是一组标准,这些标准由特定的策略、规则、模型和标准组成,这些标准管理、收集什么类型的数据、从哪里收集数据、收集数据的安排、存储数据、利用和保护数据进入系统和数据仓库进行进一步分析。
数据架构是企业架构的重要支柱之一,通过它可以成功地执行业务策略。数据架构设计对于创建数据系统之间交互的远景非常重要,例如,如果数据架构师想要实现数据集成,那么它将需要两个系统之间的交互,通过使用数据架构,可以实现流程中数据交互的远景模型。
数据架构还描述了用于管理数据类型的数据结构,它提供了一种简便的方法进行数据预处理。数据架构分为三个基本模型,然后进行组合:
概念模型,它是一种使用实体关系(ER)模型来表示实体及其属性之间的关系的业务模型。逻辑模型,在这个模型中,问题以逻辑的形式表示,如数据的行和列、类、xml标记和其他DBMS技术。
物理模型,
包含数据库设计,比如哪种类型的数据库技术将适合于体系结构。数据架构师负责数据架构的所有设计、创建、管理和部署,并定义数据如何存储和检索,其他决策由内部机构做出。
2影响数据架构的因素
影响数据架构的因素包括业务策略、业务需求、使用的技术、经济和数据处理需求。
•业务需求
包括业务扩展、系统访问性能、数据管理、事务管理、将原始数据转换为图像文件和记录,然后存储在数据仓库等因素。数据仓库是业务中存储事务的主要方面
•业务策略
策略是用于描述数据处理方式的规则。这些政策是由内部组织机构和其他政府机构制定的。
•技术的使用
这包括使用以前完成的数据架构设计的例子,也使用现有的许可软件购买,数据库技术。
•企业经济
商业增长与亏损、利率、贷款、市场状况、整体成本等经济因素也会对设计架构产生影响。
•数据处理的需求
这些因素包括数据挖掘、大型连续事务、数据库管理和其他数据预处理需求等。
3 数据管理
数据管理是对数据提取、数据存储、数据传输、数据处理、数据安全等任务进行低成本管理的过程。
数据管理的主要目的是对人和组织的数据进行最优的管理和保护,使其能够方便地创建、访问、删除和更新数据。
因为数据管理是每一个企业成长中必不可少的过程,没有数据管理,就无法为业务发展制定政策和决策。
数据管理越好,业务的生产率就越高。
像大数据这样的大量数据传统上很难管理,因此必须利用最佳的技术和工具来管理数据,如Hadoop、Scala、Tableau、AWS等。可以进一步用于大数据分析,实现模式的改进。
数据管理可以通过培训必要的员工和由DBA、数据分析师和数据架构师进行维护来实现。
三 数据架构是数据管理蓝图
数据架构是一门学科,它记录组织的数据资产,映射数据如何在其系统中流动,并为管理数据提供蓝图。目标是确保正确管理数据并满足业务对信息的需求。
虽然数据架构可以支持运行应用程序,它最显著定义商业智能(BI)的基础数据环境和先进的分析计划。其成果包括用于数据平台和数据管理工具的多层框架,以及用于收集、集成、转换和存储数据的规范和标准。
理想情况下,数据架构设计是数据管理流程的第一步。通常情况并非如此,这会产生不一致的环境,需要作为数据架构的一部分进行协调。此外,尽管数据架构具有基本性质,但它们并不是一成不变的,必须随着数据和业务需求的变化而更新。这使它们成为数据管理团队持续关注的问题。
数据架构与数据建模密切相关,数据建模创建数据结构图、业务规则和数据元素之间的关系。不过,它们是独立的数据管理学科。在一篇关于数据建模和数据架构如何不同的文章中,咨询公司Knowledge Integrity Inc.的总裁David Loshin区分了建模对数据资产的微观关注和数据架构更广泛的宏观视角。
《数据架构指南》进一步解释了它是什么、为什么重要以及它提供的业务好处,还可以找到关于数据架构框架、最佳实践等方面的信息。
1 数据架构是如何演进的
在过去,大多数数据架构都没有现在那么复杂。它们主要涉及存储在关系数据库中的事务处理系统中的结构化数据。分析环境由数据仓库组成,有时还包含为单个业务单元构建的较小的数据集市和作为暂存区域的操作数据存储。在批处理作业中处理事务数据进行分析,使用传统的提取、转换和加载(ETL)流程进行数据集成。
从2000年代中期开始,大数据技术在商业中的应用为许多架构添加了非结构化和半结构化的数据形式。这导致了数据湖的部署,它通常以原始格式存储原始数据,而不是过滤和转换数据以供前期分析——这是数据仓库过程的一个巨大变化。新的方法正在推动更广泛地使用ELT数据集成,这是ETL的替代方法,它可以转换负载和转换步骤。
流处理系统使用的增加也将实时数据引入更多的数据架构中。除了基本的BI和数据仓库驱动的报表之外,现在的架构还支持人工智能和机器学习应用程序。向基于云的系统的转变进一步增加了数据架构的复杂性。
上图显示了一个高级数据架构蓝图的示例,其中数据管理的不同部分有不同的层。
2 为什么数据架构很重要
设计良好的数据架构是数据管理过程的关键部分。它支持数据集成和数据质量改进工作,以及数据工程和数据准备。它还支持有效的数据治理和内部数据标准的开发。这两件事反过来帮助组织确保他们的数据是准确和一致的。
数据架构也是支持业务目标和优先级的数据策略的基础。咨询公司TreeHive strategy的负责人唐纳德•法默(Donald Farmer)在一篇关于关键数据战略组件的文章中写道:“现代商业战略依赖于数据。”法默说,这使得数据管理和分析太重要了,不能把它留给个人。为了更好地管理和使用数据,组织需要创建一个全面的数据策略,并以强大的数据架构为基础。
上图是咨询公司Global data strategy制定数据战略的四个主要阶段。
3 数据架构的特征和组件
在以前一篇有关现代数据架构原则的文章中,强调了数据治理和法规遵从过程的重要性,以及支持多云环境的日益增长的需求。同时,如果数据架构不能将数据用于分析,那么数据的潜在商业价值就会被浪费。
数据是一种商业资产,这是现代数据管理的陈词滥调,但是数据即便只是一个成本中心,依然需要维护而不提供任何商业利益。设计良好的数据架构的常见特征包括:
•与组织战略和数据需求一致的业务驱动重点;
•灵活性和可伸缩性,以支持各种应用程序,并满足新的业务对数据的需求;和
•强有力的安全保护,防止未经授权的数据访问和数据的不当使用。
•从纯粹主义者的角度来看,数据架构组件不包括平台、工具和其他技术。相反,数据架构是由一组图表和文档描述的概念基础设施。数据管理团队使用它们来指导技术部署和数据管理。
这些组件或构件的示例如下:
•数据模型、数据定义和数据元素的通用词汇表;
•说明数据如何在系统和应用程序中流动的数据流程图;
•将数据使用映射到业务流程的文档,例如CRUD矩阵(创建、读取、更新和删除的缩写);
•其他描述业务目标、概念和功能的文件,以帮助将数据管理措施与这些目标保持一致;
•规定如何收集、集成、转换和存储数据的政策和标准;和
•一个高阶架构蓝图,具有不同的处理层,如数据摄取、数据集成和数据存储。
遵循原则可以帮助数据架构设计走上正确的道路。
4 数据架构的好处
理想情况下,设计良好的数据架构可以帮助组织开发有效的数据分析平台,交付有用的信息和见解。在公司里,这些见解可以改善战略规划和运营决策,潜在地带来更好的业务表现和竞争优势。
数据架构还有助于提高数据质量、简化数据集成和降低数据存储成本。弗吉尼亚联邦大学(Virginia Commonwealth University)的数据管理顾问、信息系统副教授彼得·艾肯(Peter Aiken)表示,与特定领域的数据建模相比,它采取了企业视角,或者关注数据库级别的架构。
5 不良数据架构设计的风险
数据架构的一个缺陷是过于复杂。可怕的“意大利面条式体系结构”就是证据,它是一组表示不同数据流和点对点连接的混乱的行。结果是一个摇摇欲坠的数据环境,数据仓库不兼容,难以集成以供分析使用。从本质上讲,数据架构项目通常旨在为现有的有机开发的混乱环境带来秩序。但如果处理不当,它们可能会产生类似的问题。
另一个挑战是在标准化数据定义、格式和需求上达成普遍一致。否则,就很难创建有效的数据架构。将数据放在业务上下文中也是如此。如果做得好,数据架构“捕获了运行组织所需的数据的业务意义”。但是,如果不这样做,可能会在数据架构和它应该满足的战略数据需求之间产生脱节。
6 数据架构和数据建模数
据建模主要关注特定数据资产的细节。它创建了数据实体、它们的属性以及不同实体如何相互关联的可视化表示。这有助于确定应用程序和系统的数据需求,然后为数据设计数据库结构,这是一个通过概念性、逻辑性和物理数据模型的进程。
数据架构从更全局的角度来看待组织的数据,为数据管理和使用创建一个框架。数据建模和数据架构是相辅相成的。数据模型是数据架构中的一个关键元素,一个已建立的数据架构可以简化数据建模。
咨询公司Athena IT Solutions的管理合伙人Rick Sherman分别解释了七种数据建模技术,包括层次数据模型、网络数据模型、关系数据模型、面向对象的数据模型、实体-关系模型、维度建模和图形建模方法等,这些方法目前最常用。下面是数据建模最佳实践,包括以下建议:
•在构建模型之前,预先收集业务和数据需求。
•迭代地、增量地开发数据模型,以使过程易于管理。
•使用数据模型作为与业务用户交流其需求的工具。
•管理数据模型就像管理任何其他类型的应用程序代码一样。
数据管理团队通常分阶段构建这三种类型的数据模型。
7 数据架构、信息架构和企业架构
企业应用程序中的数据架构和信息架构之间的区别。信息是上下文中的数据,信息架构定义了企业用于其业务运营和管理的上下文。提供高质量、可靠数据的数据架构是信息体系结构的基础。同时,数据架构通常被视为企业架构(EA)的子集,其目标是在四个领域为组织创建组织蓝图。EA还包括以下内容:•业务架构,涉及业务策略和关键业务流程;•应用架构,重点关注单个应用程序及其与业务流程的关系;和•包括IT系统、网络和其他支持其他三个领域的技术架构。
8 数据架构框架
组织可以使用标准化框架来设计和实现数据架构,而不是完全从头开始。这是三个众所周知的框架选项:
DAMA-DMBOK2
DAMA数据管理知识体系指南是由DAMA国际(数据管理人员专业协会)创建的数据管理框架和参考指南。现在推行的是第二版,通常被称为DAMA-DMBOK2,该框架解决了数据体系结构和其他数据管理规程。第一版于2009年出版,第二版于2017年面世。
TOGAF
TOGAF创建于1995年,并自那时以来多次更新,它是一个企业架构框架和方法,包括数据架构设计和路线图开发的部分。它是由Open Group开发的,TOGAF最初代表Open Group Architecture Framework。但现在它被简单地称为TOGAF标准。
Zachman框架
这是一个本体框架,它使用6*6的行和列矩阵来描述企业架构,包括数据元素。它不包括实现方法;相反,它是作为架构的基础。该框架最初是由IBM高管约翰·扎克曼(John Zachman)于1987年开发的,他于1990年从IBM退休,并创建了一家名为Zachman International的咨询公司。
9 创建数据架构的关键步骤
数据管理团队必须与业务主管和其他终端用户密切合作,以开发数据架构。如果不这样做,则可能与业务策略和数据需求不一致。数据架构创建的关键步骤包含:
•与高级领导进行交流
与任何战略性技术计划一样,开发数据架构的价值必须有效地与最高管理层进行沟通,并不断进行沟通。展示数据架构给企业带来的好处的信息。确定并争取关键利益相关者的支持。
•识别数据角色
组织的技术环境是由数据使用者的信息需求驱动的。应用程序系统管理员对其应用程序产生和使用的数据集负责。确定在企业中创建、存储、更新、读取和接触数据的人员。确定典型的人物角色,并根据他们的数据接触点对他们进行描述。
•确定数据需求
让数据使用者了解他们的业务策略,并征求他们对数据的业务需求。记录这些需求与抽象数据域(如“客户”或“产品”数据)以及这些消费者当前使用或预期需要的离散数据集之间的关系。
•风险评估信息
确定和解释数据治理指令,以及它们如何与数据的处理、管理和保护相关。
•评估数据概况
调查和记录企业数据集的名称、位置、所有者、生产者、消费者和内容。根据使用场景和敏感性对每个数据集进行分类,并在数据目录中收集这些信息。
•分析数据生命周期
评估数据集如何从它们的起始点流向它们的最终目的地。记录数据管道的数据沿袭映射。
•评估数据基础设施
记录企业中数据管理的当前状态,并捕捉当前的技术基础设施——使用哪些系统、数据库结构、数据仓库、数据集市和操作数据存储,它们是在企业内部还是在云中,如果是后者,则是云服务提供商。
•做SWOT分析
综合收集到的知识,分析优势、劣势、机会和威胁。找出最大的改进机会。
•创建蓝图和路线图
为构建企业数据架构设计蓝图,总结收集的知识并突出建议的部署项目。从近期、中期和长期的角度为拟议的项目制定路线图。
10 数据架构设计和开发中的角色
数据架构计划的领导角色通常是数据架构师。他们需要各种技术技能,以及与业务用户交互和沟通的能力。数据架构师花费大量时间与最终用户一起编写业务流程和现有数据使用情况,以及新数据需求。
在技术方面,数据架构师自己创建数据模型,并由其他人监督建模工作。他们还构建数据架构蓝图、数据流图和其他工件。其他职责可能包括概述数据集成过程和监督数据定义、业务术语表和数据目录的开发。在一些组织中,数据架构师还负责设计数据平台、评估和选择技术。其他经常参与数据架构过程的数据管理专业人员包括:
•数据建模师。他们与业务用户一起评估数据需求和审查业务流程。然后,他们利用收集到的信息创建数据模型。
•数据集成开发人员。一旦实现了体系结构,他们的任务就是创建ETL和ELT作业来集成数据集。
•数据工程师。他们建立管道,将数据输送给数据科学家和其他分析师。他们还帮助数据科学团队进行数据准备过程。