大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。在最近的两年的时间里,因为公司的需求,还有大数据的发展趋势所在,我开始学习数据治理的相关知识。
数据治理需要进行系统的学习才能真正掌握,也需要进行专业的考试认证才能证明自己在数据治理方面的学习能力和知识掌握情况。如果对数据治理和数据治理认证CDMP有疑问的话,可以参考我之前的文章,有详细的介绍。
5000字详解数据治理如何入门(附国际数据治理认证考试-CDMP学习群)
正文共: 6623字 7图
预计阅读时间: 17分钟
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。
文章较长,建议收藏后阅读。
后续的文档请关注公众号 大数据流动,会持续的更新~
本文档为数据集成和互操作思维导图与知识点整理。共分为5个部分,由于页面显示原因,部分层级未能全部展开。结构如下图所示。
一、数据集成与互操作
数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。
数据集成和互操作提供组织所依赖的基本数据管理职能:1)数据迁移和转换。2)数据整合到数据中心或数据集市。3)将供应商的软件包集成到组织的应用系统框架中。4)在不同应用程序或组织之间数据共享。5)跨数据存储库和数据中心分发数据。6)数据归档。7)数据接口管理。 8)获取和接收外部数据。9)结构化和非结构化数据集成。10)提供运营智能化和管理决策支持。
数据集成和互操作语境关系图
数据集成和互操作依赖于数据管理的其他领域,如:1)数据治理。用于治理转换规则和消息结构。2)数据架构。用于解决方案设计。3)数据安全。无论数据是持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护。4)元数据。用于知晓数据的技术清单(持久的、虚拟的和动态的)、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘。5)数据存储和操作。管理解决方案的物理实例化。6)数据建模和设计。用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间 传送的消息结构。
数据集成和互操作是新兴大数据管理领域的核心,主要目的是为了对数据移动是进行有效管理。 主要责任就是管理数据在组织内部的存储库与其他组织之间的双向流动过程。(1)管理数据集成的复杂性以及相关成本是建立数据集成架构的原因。(2)维护管理成本(3)支持组织遵守数据处理标准和规则的能力也是驱动因素之一。
目标:1)按照所需格式,及时地提供安全、合规的数据。2)构建开发共享模型和接口,降低解决方的成本和复杂度。3)识别有意义的事件,自动触发预警和动作。4)支撑商务智能、数据分析、主数据管理,并致力于提高运效率。
在实施数据集成和互操作时,组织应遵循以下原则:1)采用企业视角确保未来的可扩展性设计, 通过迭代和增量交付实现。2)平衡本地数据需求与企业数据需求,包括支撑与维护。3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。
二、基本概念
1、抽取、转换、加载
数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程。
抽取:包括选择所需的数据并从其源数据中提取。
转换包括:格式变化。结构变化。语义转换。消除重复。重新排序。
加载:加载过程是在目标系统中物理存储或呈现转换结果。
如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为 ELT——抽取、加载、转换。
映射:转换的同义词,从源结构到目标结构建立查找矩阵的过程。
2、时延
指从源系统生成数据到目标系统可用该数据的时间差。延迟可以是很高(批处理)或较高(事件驱动),甚至是非常低(实时同步)。
类型有:
【批处理】按周期自动触发ETL。
【变更数据捕获】
1)源系统填入特定的数据元素。2)源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择。3)源系统复制已变化的数据。
【准实时和事件驱动】
有比批处理更低的延迟。
【异步】处理之前不会等待接收系统确认更新。
【实时,同步】不允许存在时间延迟或其他差异的情况。
【低延迟或流处理】减少事件的响应时间。
3、复制
维护数据集的精确副本。
4、归档
不经常使用的数据可以移动到对组织成本较低的备用数据结构或存储解决方案中。
5、企业消息格式、规范格式
规范化的数据模型是组织或数据交换团队使用的通用模型,用于标准化数据共享的格式。
6、交互模型
1 点对点(存在几个方面的问题:影响处理;管理接口;潜在的不一致。)
2 中心辐射型。企业服务总线(ESB)是用于多个系统之间接近实时共享数据的数据集成解决方案。
3 发布与订阅。
7、数据集成与互操作的架构概念
1、应用耦合
2、编排和流程控制
3、企业应用集成。企业应用集成模型(Enterprise Application Integration,EAI)中,软件模块之间仅通过定义良好的接口调用(应用程序编程接口-API)进行交互。数据存储只能通过自己的软件模块更新,其他软件不能直接访问应用程序中的数据,只能通过定义的 API 访问。企业应用集成是基于面向对 象的概念,它强调重用和替换任何模块而不影响任何其他模块的能力。
4、企业服务总线(Enterprise Service Bus,ESB)是一个系统,它充当系统之间的中介,在它们之间传送消息。应用程序可以 通过 ESB 现有的功能封装发送和接收的消息或文件。作为一个松散耦合的例子,ESB 充当两个应 用程序之间的服务角色。
5、面向服务的架构 SOA:通这在应用程序之间定义好的服务调用,可以 提供推送数据或更新数据。SOA 的目标是在独立的软件模块之间定义良好的交互。数据服务可 以包括数据的添加、删除、更新和检索,这些服务被指定在可用服务的目录中。SOA 可以通过 Web 服务、消息传送、RESTful API 等多种技术来实现。
6、复杂事件处理:CEP。跟踪和分析有关发生事件的信息流,并从中得出结论的方法。
7、数据联邦和虚拟化。数据存储于不同的数据存储库时,通过除物理集成以外的方式来聚合。
8、数据即服务。
SaaS软件即服务是一种交付和许可模式。
Daas数据即服务的一个定义是从供应商获得许可并按需由供应商提供数据,而不是存储和维护在被许可组织数据中心的数据。
9、云化集成。集成平台即服务IPaaS,是作为云服务交付的一种系统集成形式。
8、数据交换标准
数据交换标准是数据元素结构的正式规则。
国际标准化组织(ISO),国家信息交换模型(NIEM)
三、活动
数据集成和互操作涉及在什么时间、什么地点、以什么方式能获得数据。
数据集成活动遵循开发周期模型,从规划开始,经过设计、开发、测试和实施等过程。一旦实施就必须对集成系统进行管理、监控和升级。
1、规划和分析
1)定义数据集成和生命周期需求。理解组织的业务目标及为实现这些目标而需要的数据和建议的技术方案。
由业务分析师、数据管理专员和具有各种职能架构师定义。
过程创建并发现有价值的元数据,有利于管理数据成风险和成本。
2)执行数据探索。为数据集成工作确定潜在的数据来源,针对数据质量进行高级别的评估,以确定数据是否集成。数据探索会生成完善组织的数据目录。需要做好集成内外部数据的规划。
3)记录数据血缘。揭示数据在组织中如何流动。血缘分析可能会识别使用的系统所需的更新,分析过程还可以提供改进现有数据流的机会。
4)剖析数据。理解数据内容和结构是实现数据集成功的关键。基本剖析包括:1)数据结构中定义的数据格式和从实际数据中推断出来的格式。2)数据的数量,包括 null 值、空或默认数据的级别。3)数据值以及它们与定义的有效值集合的紧密联系。4)数据集内部的模式和关系,如相关字段和基数规则。(内部关联)5)与其他数据集的关系(数据集之间的关联)。
5)收集业务规则。收集业务规则也称为规则获取、业务规则挖掘。业务 规则是需求的一个关键子集,是定义或约束业务处理方面的语句。业务规则旨在维护业务结构、 控制或影响业务的行为。
业务规则分为四类:业务术语定义、相互关联的术语的事实、约束或行为断言以及派生。
实现数据集成和互操作需要业务规则的支撑内容:1)评估潜在的源数据集和目标数据集的数据。2)管理组织中的数据流。3)监控组织中的操作数据。4)指示何时自动触发事件和警报。
业务规则 :匹配规则、合并规则、存活规则、信任规则。
2、设计数据集成解决方案
1)设计数据集成解决方案
在企业和单个解决方案两个层面统筹考虑。尽可能重现有方案和组件。解决方案体系结构表示将要使用的技术,它将包括所涉及数据结构的清单(持久和可传递、现有和必需)、数据流的编排和频率指示、法规、安全问题和补救措施以及有关备份和恢复、可用性和数据存档和保留。
步骤:(1)设计交互模型。(2)设计数据服务或交换模式
2)建模数据中心、接口、消息、数据服务。数据持久化的数据结构,如主数据管理中心、数据仓库、数据集市、操作型数据存储库等。
3)映射数据源到目标。映射规范:1)指明源数据和目标数据的技术格式。 2)指定源数据和目标数据之间所有中间暂存点所需的转换。3)描述最终或中间目标数据存储区中每个属性的填充方式。4)描述是否需要对数据值进行转换,如通过在表示适当目标值的表中查找源值。5)描述需要进行哪些计算。
4)设计数据编排。从开始到结束的数据流模式,包括完成转换和/或事务所需的所有中间步骤。设定数据移动和转换的频率。
3、开发数据集成解决方案
1)开发数据服务。使用一致的工具或标准的供应商套件。
2)开发数据流编排。开发实时数据成流涉及监控事件。可能包括开发数据存储之间的映射或协调点,涉及监控事件。
3)制定数据迁移方法。不是一次性的过程,常被低估或缺乏充分的设计。
4)制定发布方式。最佳实践是为组织中的各种数据类型确定一个通用的消息定义(规范格式),并让具有适当访问权限的数据使用者(应用程序或个人)订阅接收有关数据更改的通知。
5)开发复杂事件处理流。需要做的工作:1)准备有关预测模型的个人、组 织、产品或市场和迁移前的历史数据。2)处理实时数据流,充分填充预测模型、识别有意义的事件(机会或威胁)。3)根据预测执行触发的动作。
6)维护数据集成和互操作的元数据。元数据应经过业务和技术利益相关方的审核和批准过程。
4、实施和监测
建立度量指标和反馈问题的机制。必须进行苛刻的监视和服务。
四、工具和实施指南
工具:1、数据转换引擎/ETL工具。2、数据虚拟化服务器。3、企业服务总线 ESB。4、业务规则引擎。5、数据和流程建模工具。6、数据剖析工具。7、元数据存储库。
必须基于深入的业务来开发数据集成解决方案。方案要保持在关注业务和需求上。要有足够权威级别的团队来企业数据集成的实施,通过正面激励措施来鼓励,通过负面的管控措施来否决。
数据消息、数据模型和数据转换规则设计的决策,直接影响到组织使用数据的能力。这些决策必须由商业因素驱动。
实施指南:
就绪评估和风险评估:应该围绕企业集成工具实现或增强允许互操作性能力来考虑。
组织和文化变革:数据消息、数据模型和数据转换规则设计的决策,直接影响到组织使用数据的能力。
五、数据集成和互操作治理
1、数据共享协议
应指定数据共享协议或谅解备忘录。
2、数据集成和互操作与数据血缘
数据血缘对于数据集成和互操作解决方案的开发有很大的价值。
3、度量指标
1)数据可用性。请求数据的可获得性。
2)数据量和速度。它包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。
3)解决方案成本和复杂度。它包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。
未完待续~