上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。这种信息架构方法有三个目标:
1. 结合来自整个组织的最佳信息,供操作和分析系统使用。
2. 通过分析以前未利用的信息源,用相关的事实和事件触发器增加合并信息。
3.更容易地定位信息,并将其交付到业务最需要的地方。
下面是该架构中编号功能的描述:
后台应用程序(区域1)
后台应用程序运行并处理业务事务。这些系统包括订单处理、记账、市场营销、产品开发和销售类型的系统。通常,它们使用自己的数据独立地进行操作,但是它们可以与分析源中的操作系统交换信息。
新数据源(区域2)
新数据源是提供信息以补充后台应用程序生成的信息的系统。这些资源可能来自第三方,也可能是内部资源,例如日志、电子邮件和其他基于文本的资源。
数据采集(区域3)
数据采集收集来自后台应用程序的原始信息,以及用于验证、关联、清理和转换的新数据源。
分析源(区域4)
分析源为不同类型的分析处理提供信息:
-有些分析处理发生在托管分析源的系统内部。
-当数据在分析源之间移动时,一些分析处理发生在供应引擎中。
-一些分析处理发生在信息交互系统。新数据环境中的分析源包括共享的操作系统,如主数据中心、引用数据中心、活动数据中心和内容管理中心,以及数据仓库、MapReduce (Hadoop)、文件、数据库和数据集市等系统,这些系统承载着从许多来源获得的历史信息。
数据访问(区域5)
数据访问使数据交互解决方案能够定位和使用信息,而不需要确切地了解数据的物理存储和维护位置。此功能称为数据虚拟化的方法的一部分,是新数据处理领域的关键补充
数据交互(区域6)
数据交互解决方案包括系统的参与和先进的分析能力。他们主要使用来自分析来源的数据。数据交互解决方案可以生成一些反馈到分析源的数据。
事件检测和处理(区域7)
当在应用程序、分析源和数据交互解决方案中检测到重要事件时,事件检测和操作将触发业务流程和其他活动。这是新数据处理领域的另一个重要补充。
数据治理、风险和合规(区域8)
数据治理、风险和遵从性提供了确保数据在其生命周期中得到适当管理的能力,并提供了与数据的敏感性和使用相一致的质量和保护级别。
安全及业务连续性(区域9)
安全和业务连续性管理确保所有系统都具有与其对业务的重要性相适应的安全性和可用性。
新数据架构的变化表明,架构正在发生一些变化。如果进一步深入到包含中心区域(信息摄取和分析源)的区域,就会看到更多关于此演化的细节,如下图所示。
对于这些变化如下所述:
着陆区区域(区域1)
着陆区域管理从应用程序和新源接收的原始数据。对该数据执行的验证和重新格式化非常少。
共享数据分析区域(区域2)
共享数据分析区包含用于报告和分析的数据。
深度数据区域(区域3)
深度数据区域包含详细的信息,分析人员可以使用这些数据为业务创建新的洞察和总结。在分析处理完成后,这些数据将保留一段时间,以便在分析处理发现意外值时对原始事实进行详细的调查。
集成的数据仓库及集市区(区域4)
集成的数据仓库和集市区域包含合并和汇总的历史数据,这些数据是为报告和分析而管理的。
勘探区(区域5)
勘探区提供用于勘探分析的数据。探索性分析使用各种各样的原始数据和管理信息。
共享操作数据区(区域6)
共享操作数据区域具有包含由多个系统共享的统一操作信息的系统。此区域包括主数据、内容、引用数据和活动数据管理等。
数据交付区(区域7)
数据交付区域包含准备供数据局交互解决方案使用的信息。数据交付区域通常包含定期刷新的只读数据,以支持使用它的系统的需要。它提供了一些在数据虚拟化中使用的权威信息源,其中原始的信息源不适合直接访问。
下图总结了每个信息区域的一些明显特征。
大数据架构与大数据应用场景相关。例如,大数据探索为组织带来了新的数据来源,通常是进入着陆区。在那里,可以对数据进行初步检查和检查,以确保数据不会违反信息治理策略,或者包含有害的代码,或者仅仅是无用的数据。在数据经过这个初始评估之后,数据可能会被移动到探测区域进行进一步的评估,例如针对业务假设的沙箱测试。被证明是持续使用的来源被作为生产过程的一部分带入信息供应链。根据它们的数据内容和使用,它们可能流入深层数据区域或共享操作数据区域,或者被聚合到集成的仓库和集市区域。
要将数据移入和通过这些信息区域,还必须考虑将支持这些区域的系统作为新数据架构的一部分。在某些情况下,这些系统明显地落在一个区域内,但在其他情况下,这些系统及其功能跨越多个区域,如下图所示。
下面是功能区各系统的描述,如图上图所示:
流数据、分析和其他功能引擎(系统1)
流数据、分析和其他功能引擎获取原始数据并执行初始验证、关联、整合和转换以使数据一致,这简化了后续处理。当从高速接收信息时,流数据引擎非常重要,因为这些信息到达得太快而无法存储。流数据引擎可以提取重要的事实并传递给其他系统。
MapReduce处理(Hadoop)(系统2)
MapReduce Processing (Hadoop)提供了一个灵活的存储系统,可以存储多种格式的数据。模式和其他形式的注释可以在数据存储后映射到数据上,从而允许将其用于多种用途。
数据仓库(系统3)
新数据架构下仍然需要数据仓库为分析、报告和仪表板提供对合并、聚合和协调信息的有效访问。
文件系统(系统4)
文件系统有许多用途,特别是用于移动大量信息。
数据库(系统5)
数据库提供用于实时访问的结构化存储。
主数据中心(系统6)
供应商、产品、帐户和资产,作为主数据管理(MDM)程序的一部分。
参考数据中心(系统7)
参考数据中心管理用于转换和关联来自不同来源的信息的值的代码表和层次结构。
内容中心(系统8)
内容中心管理文档和其他媒体,如图像、视频和音频文件,这些文件必须通过正式流程进行控制和管理。
活动数据中心(系统9)
活动数据中心管理关于最近活动的综合信息,包括与主数据和内容中心中的实体相关的分析决策。这类数据通常由应用程序管理。然而,由于组织正在处理来自其应用程序范围之外的关于活动的信息,因此需要一种新的中心来管理这类信息的动态特性。
分析中心(系统10)
分析中心出现在操作中心中,以实时创建额外的洞察力。这些中心支持高级分析,如预测分析和优化,以及业务规则。
数据集市和多维数据集(系统11)
数据集市和多维数据集仍然提供为特定应用或处理风格格式化的信息子集。它们是定期从分析源刷新的信息的只读副本。
文件(系统12)
文件仍然被用作某些分析处理的输入,特别是数据挖掘。
供应引擎(系统13)
供应引擎一是向数据交互解决方案实时提供信息,二是在数据交付区域中创建和维护数据的专门存储,数据交互解决方案将使用这些信息。
缓存(系统14)
缓存表示内存存储,为数据交互解决方案提供对只读信息的快速访问。
数据库(系统15)
数据库可以为数据交互解决方案创建的信息提供实时存储。
总体而言,这些系统为数据交互解决方案提供权威信息,无论它们是分析、报告还是决策
管理或其他下游功能。通过使用确定性和受治理的数据供应来维护权威来源,该供应需要将权威来源与信息的其他副本同步。
大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七个核心的能力,如下图所示。
下面是七个核心功能类别及其组件说明:
洞察力
数据虚拟化
数据准备
数据引擎
架构部署
大数据治理
服务管理
以上内容逐步介绍了大数据架构的演化过程,下期文章《大数据参考架构设计》继续介绍大数据架构七个核心功能的详细情况,敬请期待!