大数据治理系列:4 大数据架构形成的历史渊源(续)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。

上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。这种信息架构方法有三个目标:

1. 结合来自整个组织的最佳信息,供操作和分析系统使用。

2. 通过分析以前未利用的信息源,用相关的事实和事件触发器增加合并信息。

3.更容易地定位信息,并将其交付到业务最需要的地方。

06fc624e343c6001100c092b967b4cda.jpg

下面是该架构中编号功能的描述:

򐂰后台应用程序(区域1)

后台应用程序运行并处理业务事务。这些系统包括订单处理、记账、市场营销、产品开发和销售类型的系统。通常,它们使用自己的数据独立地进行操作,但是它们可以与分析源中的操作系统交换信息。

򐂰新数据源(区域2)

新数据源是提供信息以补充后台应用程序生成的信息的系统。这些资源可能来自第三方,也可能是内部资源,例如日志、电子邮件和其他基于文本的资源。

򐂰数据采集(区域3)

数据采集收集来自后台应用程序的原始信息,以及用于验证、关联、清理和转换的新数据源。

򐂰分析源(区域4)

分析源为不同类型的分析处理提供信息:

-有些分析处理发生在托管分析源的系统内部。

-当数据在分析源之间移动时,一些分析处理发生在供应引擎中。

-一些分析处理发生在信息交互系统。新数据环境中的分析源包括共享的操作系统,如主数据中心、引用数据中心、活动数据中心和内容管理中心,以及数据仓库、MapReduce (Hadoop)、文件、数据库和数据集市等系统,这些系统承载着从许多来源获得的历史信息。

򐂰数据访问(区域5)

数据访问使数据交互解决方案能够定位和使用信息,而不需要确切地了解数据的物理存储和维护位置。此功能称为数据虚拟化的方法的一部分,是新数据处理领域的关键补充

򐂰数据交互(区域6)

数据交互解决方案包括系统的参与和先进的分析能力。他们主要使用来自分析来源的数据。数据交互解决方案可以生成一些反馈到分析源的数据。

򐂰事件检测和处理(区域7)

当在应用程序、分析源和数据交互解决方案中检测到重要事件时,事件检测和操作将触发业务流程和其他活动。这是新数据处理领域的另一个重要补充。

򐂰数据治理、风险和合规(区域8)

数据治理、风险和遵从性提供了确保数据在其生命周期中得到适当管理的能力,并提供了与数据的敏感性和使用相一致的质量和保护级别。

򐂰安全及业务连续性(区域9)

安全和业务连续性管理确保所有系统都具有与其对业务的重要性相适应的安全性和可用性。

新数据架构的变化表明,架构正在发生一些变化。如果进一步深入到包含中心区域(信息摄取和分析源)的区域,就会看到更多关于此演化的细节,如下图所示。

a6905d68ac21e9e65c2fb1602b593066.jpg

对于这些变化如下所述:

򐂰着陆区区域(区域1)

着陆区域管理从应用程序和新源接收的原始数据。对该数据执行的验证和重新格式化非常少。

򐂰共享数据分析区域(区域2)

共享数据分析区包含用于报告和分析的数据。

򐂰深度数据区域(区域3)

深度数据区域包含详细的信息,分析人员可以使用这些数据为业务创建新的洞察和总结。在分析处理完成后,这些数据将保留一段时间,以便在分析处理发现意外值时对原始事实进行详细的调查。

򐂰集成的数据仓库及集市区(区域4)

集成的数据仓库和集市区域包含合并和汇总的历史数据,这些数据是为报告和分析而管理的。

򐂰勘探区(区域5)

勘探区提供用于勘探分析的数据。探索性分析使用各种各样的原始数据和管理信息。

򐂰共享操作数据区(区域6)

共享操作数据区域具有包含由多个系统共享的统一操作信息的系统。此区域包括主数据、内容、引用数据和活动数据管理等。

򐂰数据交付区(区域7)

数据交付区域包含准备供数据局交互解决方案使用的信息。数据交付区域通常包含定期刷新的只读数据,以支持使用它的系统的需要。它提供了一些在数据虚拟化中使用的权威信息源,其中原始的信息源不适合直接访问。

下图总结了每个信息区域的一些明显特征。

8b2b94a7327acdbc35c75e283b6c3d24.jpg

大数据架构与大数据应用场景相关。例如,大数据探索为组织带来了新的数据来源,通常是进入着陆区。在那里,可以对数据进行初步检查和检查,以确保数据不会违反信息治理策略,或者包含有害的代码,或者仅仅是无用的数据。在数据经过这个初始评估之后,数据可能会被移动到探测区域进行进一步的评估,例如针对业务假设的沙箱测试。被证明是持续使用的来源被作为生产过程的一部分带入信息供应链。根据它们的数据内容和使用,它们可能流入深层数据区域或共享操作数据区域,或者被聚合到集成的仓库和集市区域。

要将数据移入和通过这些信息区域,还必须考虑将支持这些区域的系统作为新数据架构的一部分。在某些情况下,这些系统明显地落在一个区域内,但在其他情况下,这些系统及其功能跨越多个区域,如下图所示。

813a4eb04f7360008da8ef85866e996d.jpg

下面是功能区各系统的描述,如图上图所示:

򐂰流数据、分析和其他功能引擎(系统1)

流数据、分析和其他功能引擎获取原始数据并执行初始验证、关联、整合和转换以使数据一致,这简化了后续处理。当从高速接收信息时,流数据引擎非常重要,因为这些信息到达得太快而无法存储。流数据引擎可以提取重要的事实并传递给其他系统。

򐂰MapReduce处理(Hadoop)(系统2)

MapReduce Processing (Hadoop)提供了一个灵活的存储系统,可以存储多种格式的数据。模式和其他形式的注释可以在数据存储后映射到数据上,从而允许将其用于多种用途。

򐂰数据仓库(系统3)

新数据架构下仍然需要数据仓库为分析、报告和仪表板提供对合并、聚合和协调信息的有效访问。

򐂰文件系统(系统4)

文件系统有许多用途,特别是用于移动大量信息。

򐂰数据库(系统5)

数据库提供用于实时访问的结构化存储。

򐂰主数据中心(系统6)

供应商、产品、帐户和资产,作为主数据管理(MDM)程序的一部分。

򐂰参考数据中心(系统7)

参考数据中心管理用于转换和关联来自不同来源的信息的值的代码表和层次结构。

򐂰内容中心(系统8)

内容中心管理文档和其他媒体,如图像、视频和音频文件,这些文件必须通过正式流程进行控制和管理。

򐂰活动数据中心(系统9)

活动数据中心管理关于最近活动的综合信息,包括与主数据和内容中心中的实体相关的分析决策。这类数据通常由应用程序管理。然而,由于组织正在处理来自其应用程序范围之外的关于活动的信息,因此需要一种新的中心来管理这类信息的动态特性。

򐂰分析中心(系统10)

分析中心出现在操作中心中,以实时创建额外的洞察力。这些中心支持高级分析,如预测分析和优化,以及业务规则。

򐂰数据集市和多维数据集(系统11)

数据集市和多维数据集仍然提供为特定应用或处理风格格式化的信息子集。它们是定期从分析源刷新的信息的只读副本。

򐂰文件(系统12)

文件仍然被用作某些分析处理的输入,特别是数据挖掘。

򐂰供应引擎(系统13)

供应引擎一是向数据交互解决方案实时提供信息,二是在数据交付区域中创建和维护数据的专门存储,数据交互解决方案将使用这些信息。

򐂰缓存(系统14)

缓存表示内存存储,为数据交互解决方案提供对只读信息的快速访问。

򐂰数据库(系统15)

数据库可以为数据交互解决方案创建的信息提供实时存储。

总体而言,这些系统为数据交互解决方案提供权威信息,无论它们是分析、报告还是决策

管理或其他下游功能。通过使用确定性和受治理的数据供应来维护权威来源,该供应需要将权威来源与信息的其他副本同步。

大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七个核心的能力,如下图所示。

b24d7036caedd9eb18fb79662af601b1.jpg

下面是七个核心功能类别及其组件说明:

򐂰洞察力

򐂰数据虚拟化

򐂰数据准备

򐂰数据引擎

򐂰架构部署

򐂰大数据治理

򐂰服务管理

以上内容逐步介绍了大数据架构的演化过程,下期文章《大数据参考架构设计》继续介绍大数据架构七个核心功能的详细情况,敬请期待!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
5月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
4月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
3月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
63 1
|
3月前
|
存储 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市交通拥堵溯源与治理策略展示中的应用(191)
本项目探索了基于Java的大数据可视化技术在城市交通拥堵溯源与治理策略中的应用。通过整合多源交通数据,利用Java生态中的大数据处理与可视化工具,构建了交通拥堵分析模型,并实现了拥堵成因的直观展示与治理效果的可视化评估。该方案为城市交通管理提供了科学、高效的决策支持,助力智慧城市建设。
|
4月前
|
架构师 Oracle 大数据
从大数据时代变迁到数据架构师的精通之路
无论从事何种职业,自学能力都显得尤为重要。为了不断提升自己,我们可以尝试建立一套个性化的知识目录或索引,通过它来发现自身的不足,并有针对性地进行学习。对于数据架构师而言,他们需要掌握的知识领域广泛而深入,不仅包括硬件、网络、安全等基础技术,还要了解应用层面,并熟练掌握至少一门编程语言。同时,深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样,数据架构师才能具备足够的深度和广度,应对复杂的业务和技术挑战。 构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累,数据架构师能够有效应对快速变化的商业环境和技术革新,进一
|
6月前
|
SQL 分布式数据库 Apache
网易游戏 x Apache Doris:湖仓一体架构演进之路
网易游戏 Apache Doris 集群超 20 个 ,总节点数百个,已对接内部 200+ 项目,日均查询量超过 1500 万,总存储数据量 PB 级别。
456 3
网易游戏 x Apache Doris:湖仓一体架构演进之路
|
6月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
6月前
|
存储 数据采集 分布式计算
别光堆数据,架构才是大数据的灵魂!
别光堆数据,架构才是大数据的灵魂!
212 13
|
8月前
|
存储 SQL 分布式计算
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
138 0

热门文章

最新文章