大数据架构必须具备的七大核心能力

简介: 大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。

大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七大核心的能力::

򐂰洞察力

򐂰数据虚拟化

򐂰数据准备

򐂰数据引擎

򐂰部署

򐂰大数据治理

򐂰服务管理

以下是关于大数据平台七大核心能力的描述:

一、洞见

增值服务,提供额外的洞察力的原始数据。如图1所示,洞见功能由大数据平台提供,用于从存储的数据中提取价值。

755f7159417faa4a4fcd879cb69a746b.jpg

1

以下是洞见功能的描述:

-检测:检测信息中的重要事件和条件。

-总结:从信息中提取关键值。

-访问:创建、检索、更新和删除存储的信息。

-注释:用新的视角丰富信息。

-优化:删除不必要的处理。

-顺序:以时间敏感的方式处理信息。

-预测:根据过去的数据预测或模拟未来。

-分类:预测一个项目最有可能的分组。

-渲染:图形化显示信息给用户。

-聚合:合并来自多个来源的结果。

-识别:定位相关数据的一方,对象,事件,或活动。

-分组:覆盖组和层次结构的信息。

-匹配:识别和合并重复的数据。

-链接:将相关数据链接在一起。

-关联:查找同时发生或按顺序发生的项或事件。

-评估:量化或分类系统的状态,如测量风险。

二、数据虚拟化

访问、重新格式化、整理和复制数据到组织需要的位置的机制。数据虚拟化能力(如图2所示)通过定义良好的接口提供对数据的访问。数据通常分布在异构的数据存储中。数据虚拟化提供了两种功能:它以一致的视图交付此数据,就像它是单个数据源一样;它通过本地数据向使用者提供数据。

100c966d10955adeaf05ec62e4965cd8.jpg

2

以下是数据虚拟化功能描述:

-数据定位器:查找数据源,获取数据。

-搜索和导航:定位和浏览相关数据。

-用户界面和报表:图形化地向用户显示数据。

-数据服务和api:通过定义良好的接口提供对数据的远程访问。

提供的能力包括以下项目:

-缓存:提供本地化的只读数据副本。

-整合:从多个来源复制和整合数据到一个单一的位置。

-联合:根据需要从多个来源提供相关数据。

-复制:维护一个数据源的副本。

三、数据准备

为有效消费维护和准备数据的机制。

数据准备能力如图3所示,描述了数据在大数据平台中是如何转化和改进的。

29cfff4ca33da4528eecf3024afc3d4d.jpg

3

以下是数据准备功能描述:

-数据合理化:重新组织已存储的数据以备将来处理。

-数据维护:对存储的数据进行自动维护。

-数据丰富:以新的视角丰富数据。

-数据通知:检测和发送重大事件和条件的通知。

-数据关系:覆盖的链接,组,和层次上的数据。

-分析和报告:执行分析和创建报告。

四、数据引擎

处理和传递数据的专业服务器和引擎。

4所示的数据引擎功能是管理数据的机制。数据引擎协同工作,支持数据虚拟化和信息准备功能。它们是数据的管理方式,而数据虚拟化和数据准备功能反映了数据支持的直接业务价值。

b9b67604d5f4d095ed57a889e0829a8f.jpg

4

以下是数据引擎功能描述:

-数据库存储:用于管理结构化数据集合的服务器,如在线事务处理数据库、操作数据存储、数据仓库和在线分析处理多维数据集。

-托管操作数据HUB:许多系统共享的托管操作信息的服务器,如主数据HUB和参考数据HUB以及元数据目录。

-资源管理器服务器:用于定位和索引多个信息源的服务器,支持搜索和导航。

-供应引擎:用于信息转换和移动的服务器,包括整合、联合、消息传递、复制和流媒体引擎。

- 洞见服务:执行专业分析处理,从信息中提取新见解的服务器,如分析、MapReduce和匹配引擎。

五、部署

用于管理支持大数据功能的基础设施的方法。

部署功能(如图5所示)描述了托管信息管理功能的方法。

5167922be9947fac8df11f842b7b48b0.jpg

5

以下是部署功能描述:

-硬件:基础设施在支持平台里是购买或安装独立。

-设备:购买的基础设施与软件安装和准备部署。

-私有云:组织使用的共享基础设施。

-公共云:基础设施和软件,可按使用付费。

六、治理

保护、管理和改进组织运作的能力。

治理能力,如图6所示,提供了组织确保其满足其义务的方法。这些义务可能是对法律当局、股东、客户、供应商和员工的。

f7ecad16f54766b796dca3995da51464.jpg

6

治理能力包括四个方面:

-公司治理:从公司的角度管理业务政策和流程。

-风险管理:理解、减少、减轻和报告风险。

-信息治理:保护、管理和改进组织所持有的信息的能力。

-IT管治:维持安全和有效的信息技术基础设施。

七、服务管理

用于管理大数据平台基础设施(硬件和软件资源)的服务。

服务管理功能(如图7所示)可以在存储数据的每个信息管理产品中找到。还存在其他一些产品,它们聚合了服务器(节点)的管理,以减少大型企业的总体拥有成本(TCO)

dca8d2cbb04e0e18f4d8303cfa1af4d6.jpg

7

以下是服务管理能力描述:

-安装和升级:添加和维护软件。

-配置管理:启用和管理IT资源。

-安全管理:保护信息和处理资源免遭盗窃、未经授权或不当使用。

-备份/还原:创建和还原信息和软件的副本,以便在发生意外故障后进行恢复。

-问题确定:定位和理解配置使用、软件或信息中的错误。

当这些系统和功能在新的大数据信息环境中结合在一起并相互连接时,管控和管理组织中使用信息的方式的义务就会增加。例如,在一个系统中添加的错误信息有可能污染其他系统,并且比以前有更大的影响。因此,为了保障数据治理,需要对大数据环境下的数据进行治理。下面的文章将逐一介绍大数据治理相关的内容。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
10月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
11月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
8月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
669 1
|
10月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
183 1
|
9月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
11月前
|
架构师 Oracle 大数据
从大数据时代变迁到数据架构师的精通之路
无论从事何种职业,自学能力都显得尤为重要。为了不断提升自己,我们可以尝试建立一套个性化的知识目录或索引,通过它来发现自身的不足,并有针对性地进行学习。对于数据架构师而言,他们需要掌握的知识领域广泛而深入,不仅包括硬件、网络、安全等基础技术,还要了解应用层面,并熟练掌握至少一门编程语言。同时,深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样,数据架构师才能具备足够的深度和广度,应对复杂的业务和技术挑战。 构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累,数据架构师能够有效应对快速变化的商业环境和技术革新,进一
|
SQL 分布式数据库 Apache
网易游戏 x Apache Doris:湖仓一体架构演进之路
网易游戏 Apache Doris 集群超 20 个 ,总节点数百个,已对接内部 200+ 项目,日均查询量超过 1500 万,总存储数据量 PB 级别。
1098 3
网易游戏 x Apache Doris:湖仓一体架构演进之路
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
存储 数据采集 分布式计算
别光堆数据,架构才是大数据的灵魂!
别光堆数据,架构才是大数据的灵魂!
368 13