大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七大核心的能力::
洞察力
数据虚拟化
数据准备
数据引擎
部署
大数据治理
服务管理
以下是关于大数据平台七大核心能力的描述:
一、洞见
增值服务,提供额外的洞察力的原始数据。如图1所示,洞见功能由大数据平台提供,用于从存储的数据中提取价值。
图1
以下是洞见功能的描述:
-检测:检测信息中的重要事件和条件。
-总结:从信息中提取关键值。
-访问:创建、检索、更新和删除存储的信息。
-注释:用新的视角丰富信息。
-优化:删除不必要的处理。
-顺序:以时间敏感的方式处理信息。
-预测:根据过去的数据预测或模拟未来。
-分类:预测一个项目最有可能的分组。
-渲染:图形化显示信息给用户。
-聚合:合并来自多个来源的结果。
-识别:定位相关数据的一方,对象,事件,或活动。
-分组:覆盖组和层次结构的信息。
-匹配:识别和合并重复的数据。
-链接:将相关数据链接在一起。
-关联:查找同时发生或按顺序发生的项或事件。
-评估:量化或分类系统的状态,如测量风险。
二、数据虚拟化
访问、重新格式化、整理和复制数据到组织需要的位置的机制。数据虚拟化能力(如图2所示)通过定义良好的接口提供对数据的访问。数据通常分布在异构的数据存储中。数据虚拟化提供了两种功能:它以一致的视图交付此数据,就像它是单个数据源一样;它通过本地数据向使用者提供数据。
图2
以下是数据虚拟化功能描述:
-数据定位器:查找数据源,获取数据。
-搜索和导航:定位和浏览相关数据。
-用户界面和报表:图形化地向用户显示数据。
-数据服务和api:通过定义良好的接口提供对数据的远程访问。
提供的能力包括以下项目:
-缓存:提供本地化的只读数据副本。
-整合:从多个来源复制和整合数据到一个单一的位置。
-联合:根据需要从多个来源提供相关数据。
-复制:维护一个数据源的副本。
三、数据准备
为有效消费维护和准备数据的机制。
数据准备能力如图3所示,描述了数据在大数据平台中是如何转化和改进的。
图3
以下是数据准备功能描述:
-数据合理化:重新组织已存储的数据以备将来处理。
-数据维护:对存储的数据进行自动维护。
-数据丰富:以新的视角丰富数据。
-数据通知:检测和发送重大事件和条件的通知。
-数据关系:覆盖的链接,组,和层次上的数据。
-分析和报告:执行分析和创建报告。
四、数据引擎
处理和传递数据的专业服务器和引擎。
图4所示的数据引擎功能是管理数据的机制。数据引擎协同工作,支持数据虚拟化和信息准备功能。它们是数据的管理方式,而数据虚拟化和数据准备功能反映了数据支持的直接业务价值。
图4
以下是数据引擎功能描述:
-数据库存储:用于管理结构化数据集合的服务器,如在线事务处理数据库、操作数据存储、数据仓库和在线分析处理多维数据集。
-托管操作数据HUB:许多系统共享的托管操作信息的服务器,如主数据HUB和参考数据HUB以及元数据目录。
-资源管理器服务器:用于定位和索引多个信息源的服务器,支持搜索和导航。
-供应引擎:用于信息转换和移动的服务器,包括整合、联合、消息传递、复制和流媒体引擎。
- 洞见服务:执行专业分析处理,从信息中提取新见解的服务器,如分析、MapReduce和匹配引擎。
五、部署
用于管理支持大数据功能的基础设施的方法。
部署功能(如图5所示)描述了托管信息管理功能的方法。
图5
以下是部署功能描述:
-硬件:基础设施在支持平台里是购买或安装独立。
-设备:购买的基础设施与软件安装和准备部署。
-私有云:组织使用的共享基础设施。
-公共云:基础设施和软件,可按使用付费。
六、治理
保护、管理和改进组织运作的能力。
治理能力,如图6所示,提供了组织确保其满足其义务的方法。这些义务可能是对法律当局、股东、客户、供应商和员工的。
图6
治理能力包括四个方面:
-公司治理:从公司的角度管理业务政策和流程。
-风险管理:理解、减少、减轻和报告风险。
-信息治理:保护、管理和改进组织所持有的信息的能力。
-IT管治:维持安全和有效的信息技术基础设施。
七、服务管理
用于管理大数据平台基础设施(硬件和软件资源)的服务。
服务管理功能(如图7所示)可以在存储数据的每个信息管理产品中找到。还存在其他一些产品,它们聚合了服务器(节点)的管理,以减少大型企业的总体拥有成本(TCO)。
图7
以下是服务管理能力描述:
-安装和升级:添加和维护软件。
-配置管理:启用和管理IT资源。
-安全管理:保护信息和处理资源免遭盗窃、未经授权或不当使用。
-备份/还原:创建和还原信息和软件的副本,以便在发生意外故障后进行恢复。
-问题确定:定位和理解配置使用、软件或信息中的错误。
当这些系统和功能在新的大数据信息环境中结合在一起并相互连接时,管控和管理组织中使用信息的方式的义务就会增加。例如,在一个系统中添加的错误信息有可能污染其他系统,并且比以前有更大的影响。因此,为了保障数据治理,需要对大数据环境下的数据进行治理。下面的文章将逐一介绍大数据治理相关的内容。