大数据架构必须具备的七大核心能力

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。

大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七大核心的能力::

򐂰洞察力

򐂰数据虚拟化

򐂰数据准备

򐂰数据引擎

򐂰部署

򐂰大数据治理

򐂰服务管理

以下是关于大数据平台七大核心能力的描述:

一、洞见

增值服务,提供额外的洞察力的原始数据。如图1所示,洞见功能由大数据平台提供,用于从存储的数据中提取价值。

755f7159417faa4a4fcd879cb69a746b.jpg

1

以下是洞见功能的描述:

-检测:检测信息中的重要事件和条件。

-总结:从信息中提取关键值。

-访问:创建、检索、更新和删除存储的信息。

-注释:用新的视角丰富信息。

-优化:删除不必要的处理。

-顺序:以时间敏感的方式处理信息。

-预测:根据过去的数据预测或模拟未来。

-分类:预测一个项目最有可能的分组。

-渲染:图形化显示信息给用户。

-聚合:合并来自多个来源的结果。

-识别:定位相关数据的一方,对象,事件,或活动。

-分组:覆盖组和层次结构的信息。

-匹配:识别和合并重复的数据。

-链接:将相关数据链接在一起。

-关联:查找同时发生或按顺序发生的项或事件。

-评估:量化或分类系统的状态,如测量风险。

二、数据虚拟化

访问、重新格式化、整理和复制数据到组织需要的位置的机制。数据虚拟化能力(如图2所示)通过定义良好的接口提供对数据的访问。数据通常分布在异构的数据存储中。数据虚拟化提供了两种功能:它以一致的视图交付此数据,就像它是单个数据源一样;它通过本地数据向使用者提供数据。

100c966d10955adeaf05ec62e4965cd8.jpg

2

以下是数据虚拟化功能描述:

-数据定位器:查找数据源,获取数据。

-搜索和导航:定位和浏览相关数据。

-用户界面和报表:图形化地向用户显示数据。

-数据服务和api:通过定义良好的接口提供对数据的远程访问。

提供的能力包括以下项目:

-缓存:提供本地化的只读数据副本。

-整合:从多个来源复制和整合数据到一个单一的位置。

-联合:根据需要从多个来源提供相关数据。

-复制:维护一个数据源的副本。

三、数据准备

为有效消费维护和准备数据的机制。

数据准备能力如图3所示,描述了数据在大数据平台中是如何转化和改进的。

29cfff4ca33da4528eecf3024afc3d4d.jpg

3

以下是数据准备功能描述:

-数据合理化:重新组织已存储的数据以备将来处理。

-数据维护:对存储的数据进行自动维护。

-数据丰富:以新的视角丰富数据。

-数据通知:检测和发送重大事件和条件的通知。

-数据关系:覆盖的链接,组,和层次上的数据。

-分析和报告:执行分析和创建报告。

四、数据引擎

处理和传递数据的专业服务器和引擎。

4所示的数据引擎功能是管理数据的机制。数据引擎协同工作,支持数据虚拟化和信息准备功能。它们是数据的管理方式,而数据虚拟化和数据准备功能反映了数据支持的直接业务价值。

b9b67604d5f4d095ed57a889e0829a8f.jpg

4

以下是数据引擎功能描述:

-数据库存储:用于管理结构化数据集合的服务器,如在线事务处理数据库、操作数据存储、数据仓库和在线分析处理多维数据集。

-托管操作数据HUB:许多系统共享的托管操作信息的服务器,如主数据HUB和参考数据HUB以及元数据目录。

-资源管理器服务器:用于定位和索引多个信息源的服务器,支持搜索和导航。

-供应引擎:用于信息转换和移动的服务器,包括整合、联合、消息传递、复制和流媒体引擎。

- 洞见服务:执行专业分析处理,从信息中提取新见解的服务器,如分析、MapReduce和匹配引擎。

五、部署

用于管理支持大数据功能的基础设施的方法。

部署功能(如图5所示)描述了托管信息管理功能的方法。

5167922be9947fac8df11f842b7b48b0.jpg

5

以下是部署功能描述:

-硬件:基础设施在支持平台里是购买或安装独立。

-设备:购买的基础设施与软件安装和准备部署。

-私有云:组织使用的共享基础设施。

-公共云:基础设施和软件,可按使用付费。

六、治理

保护、管理和改进组织运作的能力。

治理能力,如图6所示,提供了组织确保其满足其义务的方法。这些义务可能是对法律当局、股东、客户、供应商和员工的。

f7ecad16f54766b796dca3995da51464.jpg

6

治理能力包括四个方面:

-公司治理:从公司的角度管理业务政策和流程。

-风险管理:理解、减少、减轻和报告风险。

-信息治理:保护、管理和改进组织所持有的信息的能力。

-IT管治:维持安全和有效的信息技术基础设施。

七、服务管理

用于管理大数据平台基础设施(硬件和软件资源)的服务。

服务管理功能(如图7所示)可以在存储数据的每个信息管理产品中找到。还存在其他一些产品,它们聚合了服务器(节点)的管理,以减少大型企业的总体拥有成本(TCO)

dca8d2cbb04e0e18f4d8303cfa1af4d6.jpg

7

以下是服务管理能力描述:

-安装和升级:添加和维护软件。

-配置管理:启用和管理IT资源。

-安全管理:保护信息和处理资源免遭盗窃、未经授权或不当使用。

-备份/还原:创建和还原信息和软件的副本,以便在发生意外故障后进行恢复。

-问题确定:定位和理解配置使用、软件或信息中的错误。

当这些系统和功能在新的大数据信息环境中结合在一起并相互连接时,管控和管理组织中使用信息的方式的义务就会增加。例如,在一个系统中添加的错误信息有可能污染其他系统,并且比以前有更大的影响。因此,为了保障数据治理,需要对大数据环境下的数据进行治理。下面的文章将逐一介绍大数据治理相关的内容。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
163 1
|
2月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
70 3
|
4天前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
66 8
|
1月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
177 3
【赵渝强老师】基于大数据组件的平台架构
|
5天前
|
存储 负载均衡 监控
揭秘 Elasticsearch 集群架构,解锁大数据处理神器
Elasticsearch 是一个强大的分布式搜索和分析引擎,广泛应用于大数据处理、实时搜索和分析。本文深入探讨了 Elasticsearch 集群的架构和特性,包括高可用性和负载均衡,以及主节点、数据节点、协调节点和 Ingest 节点的角色和功能。
15 0
|
2月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
41 9
|
2月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
149 1
|
2月前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
69 3
|
2月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化