大数据架构必须具备的七大核心能力

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。

大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七大核心的能力::

򐂰洞察力

򐂰数据虚拟化

򐂰数据准备

򐂰数据引擎

򐂰部署

򐂰大数据治理

򐂰服务管理

以下是关于大数据平台七大核心能力的描述:

一、洞见

增值服务,提供额外的洞察力的原始数据。如图1所示,洞见功能由大数据平台提供,用于从存储的数据中提取价值。

755f7159417faa4a4fcd879cb69a746b.jpg

1

以下是洞见功能的描述:

-检测:检测信息中的重要事件和条件。

-总结:从信息中提取关键值。

-访问:创建、检索、更新和删除存储的信息。

-注释:用新的视角丰富信息。

-优化:删除不必要的处理。

-顺序:以时间敏感的方式处理信息。

-预测:根据过去的数据预测或模拟未来。

-分类:预测一个项目最有可能的分组。

-渲染:图形化显示信息给用户。

-聚合:合并来自多个来源的结果。

-识别:定位相关数据的一方,对象,事件,或活动。

-分组:覆盖组和层次结构的信息。

-匹配:识别和合并重复的数据。

-链接:将相关数据链接在一起。

-关联:查找同时发生或按顺序发生的项或事件。

-评估:量化或分类系统的状态,如测量风险。

二、数据虚拟化

访问、重新格式化、整理和复制数据到组织需要的位置的机制。数据虚拟化能力(如图2所示)通过定义良好的接口提供对数据的访问。数据通常分布在异构的数据存储中。数据虚拟化提供了两种功能:它以一致的视图交付此数据,就像它是单个数据源一样;它通过本地数据向使用者提供数据。

100c966d10955adeaf05ec62e4965cd8.jpg

2

以下是数据虚拟化功能描述:

-数据定位器:查找数据源,获取数据。

-搜索和导航:定位和浏览相关数据。

-用户界面和报表:图形化地向用户显示数据。

-数据服务和api:通过定义良好的接口提供对数据的远程访问。

提供的能力包括以下项目:

-缓存:提供本地化的只读数据副本。

-整合:从多个来源复制和整合数据到一个单一的位置。

-联合:根据需要从多个来源提供相关数据。

-复制:维护一个数据源的副本。

三、数据准备

为有效消费维护和准备数据的机制。

数据准备能力如图3所示,描述了数据在大数据平台中是如何转化和改进的。

29cfff4ca33da4528eecf3024afc3d4d.jpg

3

以下是数据准备功能描述:

-数据合理化:重新组织已存储的数据以备将来处理。

-数据维护:对存储的数据进行自动维护。

-数据丰富:以新的视角丰富数据。

-数据通知:检测和发送重大事件和条件的通知。

-数据关系:覆盖的链接,组,和层次上的数据。

-分析和报告:执行分析和创建报告。

四、数据引擎

处理和传递数据的专业服务器和引擎。

4所示的数据引擎功能是管理数据的机制。数据引擎协同工作,支持数据虚拟化和信息准备功能。它们是数据的管理方式,而数据虚拟化和数据准备功能反映了数据支持的直接业务价值。

b9b67604d5f4d095ed57a889e0829a8f.jpg

4

以下是数据引擎功能描述:

-数据库存储:用于管理结构化数据集合的服务器,如在线事务处理数据库、操作数据存储、数据仓库和在线分析处理多维数据集。

-托管操作数据HUB:许多系统共享的托管操作信息的服务器,如主数据HUB和参考数据HUB以及元数据目录。

-资源管理器服务器:用于定位和索引多个信息源的服务器,支持搜索和导航。

-供应引擎:用于信息转换和移动的服务器,包括整合、联合、消息传递、复制和流媒体引擎。

- 洞见服务:执行专业分析处理,从信息中提取新见解的服务器,如分析、MapReduce和匹配引擎。

五、部署

用于管理支持大数据功能的基础设施的方法。

部署功能(如图5所示)描述了托管信息管理功能的方法。

5167922be9947fac8df11f842b7b48b0.jpg

5

以下是部署功能描述:

-硬件:基础设施在支持平台里是购买或安装独立。

-设备:购买的基础设施与软件安装和准备部署。

-私有云:组织使用的共享基础设施。

-公共云:基础设施和软件,可按使用付费。

六、治理

保护、管理和改进组织运作的能力。

治理能力,如图6所示,提供了组织确保其满足其义务的方法。这些义务可能是对法律当局、股东、客户、供应商和员工的。

f7ecad16f54766b796dca3995da51464.jpg

6

治理能力包括四个方面:

-公司治理:从公司的角度管理业务政策和流程。

-风险管理:理解、减少、减轻和报告风险。

-信息治理:保护、管理和改进组织所持有的信息的能力。

-IT管治:维持安全和有效的信息技术基础设施。

七、服务管理

用于管理大数据平台基础设施(硬件和软件资源)的服务。

服务管理功能(如图7所示)可以在存储数据的每个信息管理产品中找到。还存在其他一些产品,它们聚合了服务器(节点)的管理,以减少大型企业的总体拥有成本(TCO)

dca8d2cbb04e0e18f4d8303cfa1af4d6.jpg

7

以下是服务管理能力描述:

-安装和升级:添加和维护软件。

-配置管理:启用和管理IT资源。

-安全管理:保护信息和处理资源免遭盗窃、未经授权或不当使用。

-备份/还原:创建和还原信息和软件的副本,以便在发生意外故障后进行恢复。

-问题确定:定位和理解配置使用、软件或信息中的错误。

当这些系统和功能在新的大数据信息环境中结合在一起并相互连接时,管控和管理组织中使用信息的方式的义务就会增加。例如,在一个系统中添加的错误信息有可能污染其他系统,并且比以前有更大的影响。因此,为了保障数据治理,需要对大数据环境下的数据进行治理。下面的文章将逐一介绍大数据治理相关的内容。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
145 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
856 2
|
19天前
|
分布式计算 大数据 数据处理
经典大数据处理框架与通用架构对比
【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。
31 3
经典大数据处理框架与通用架构对比
|
20天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
48 5
|
13天前
|
存储 数据采集 数据挖掘
“湖仓一体架构及其应用”写作框架,系统架构设计师
随着5G、大数据、人工智能、物联网等技术的不断成熟,各行各业的业务场景日益复杂,企业数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式增长趋势。在这一背景下,企业数据管理不再局限于传统的结构化OLTP(On-Line Transaction Processing)数据交易过程,而是提出了多样化、异质性数据的实时处理要求。传统的数据湖(Data Lake)在事务一致性及实时处理方面有所欠缺,而数据仓库(Data Warehouse)也无法应对高并发、多数据类型的处理。因此,支持事务一致性、提供高并发实时处理及分析能力的湖仓一体(Lake House)架构应运而生。湖仓一体架构在成本、
|
1天前
|
存储 数据可视化 大数据
大数据平台架构设计与实施
【7月更文挑战第3天】本文探讨了大数据平台的关键技术,包括数据采集(如Kafka、Flume)、存储(HDFS、HBase、Cassandra)、处理(Hadoop、Spark)、分析挖掘及可视化工具。架构设计涉及数据收集、存储、处理、分析和应用层,强调各层次的协同与扩展性。实施步骤涵盖需求分析、技术选型、架构设计、系统部署、数据迁移、应用开发测试及上线运维,旨在为企业决策提供强有力的数据支持。
|
6天前
|
SQL 存储 运维
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
|
2月前
|
存储 运维 监控
|
2月前
|
消息中间件 大数据 Kafka
Kafka与大数据:消息队列在大数据架构中的关键角色
【4月更文挑战第7天】Apache Kafka是高性能的分布式消息队列,常用于大数据架构,作为实时数据管道汇聚各类数据,并确保数据有序传递。它同时也是数据分发枢纽,支持多消费者订阅,简化系统集成。Kafka作为流处理平台的一部分,允许实时数据处理,满足实时业务需求。在数据湖建设中,它是数据入湖的关键,负责数据汇集与整理。此外,Kafka提供弹性伸缩和容错保障,适用于微服务间的通信,并在数据治理与审计中发挥作用。总之,Kafka是现代大数据体系中的重要基础设施,助力企业高效利用数据。
86 1
|
2月前
|
存储 关系型数据库 测试技术
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构
50 4