大数据治理系列:4 大数据架构形成的历史渊源(续)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。

上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。这种信息架构方法有三个目标:

1. 结合来自整个组织的最佳信息,供操作和分析系统使用。

2. 通过分析以前未利用的信息源,用相关的事实和事件触发器增加合并信息。

3.更容易地定位信息,并将其交付到业务最需要的地方。

06fc624e343c6001100c092b967b4cda.jpg

下面是该架构中编号功能的描述:

򐂰后台应用程序(区域1)

后台应用程序运行并处理业务事务。这些系统包括订单处理、记账、市场营销、产品开发和销售类型的系统。通常,它们使用自己的数据独立地进行操作,但是它们可以与分析源中的操作系统交换信息。

򐂰新数据源(区域2)

新数据源是提供信息以补充后台应用程序生成的信息的系统。这些资源可能来自第三方,也可能是内部资源,例如日志、电子邮件和其他基于文本的资源。

򐂰数据采集(区域3)

数据采集收集来自后台应用程序的原始信息,以及用于验证、关联、清理和转换的新数据源。

򐂰分析源(区域4)

分析源为不同类型的分析处理提供信息:

-有些分析处理发生在托管分析源的系统内部。

-当数据在分析源之间移动时,一些分析处理发生在供应引擎中。

-一些分析处理发生在信息交互系统。新数据环境中的分析源包括共享的操作系统,如主数据中心、引用数据中心、活动数据中心和内容管理中心,以及数据仓库、MapReduce (Hadoop)、文件、数据库和数据集市等系统,这些系统承载着从许多来源获得的历史信息。

򐂰数据访问(区域5)

数据访问使数据交互解决方案能够定位和使用信息,而不需要确切地了解数据的物理存储和维护位置。此功能称为数据虚拟化的方法的一部分,是新数据处理领域的关键补充

򐂰数据交互(区域6)

数据交互解决方案包括系统的参与和先进的分析能力。他们主要使用来自分析来源的数据。数据交互解决方案可以生成一些反馈到分析源的数据。

򐂰事件检测和处理(区域7)

当在应用程序、分析源和数据交互解决方案中检测到重要事件时,事件检测和操作将触发业务流程和其他活动。这是新数据处理领域的另一个重要补充。

򐂰数据治理、风险和合规(区域8)

数据治理、风险和遵从性提供了确保数据在其生命周期中得到适当管理的能力,并提供了与数据的敏感性和使用相一致的质量和保护级别。

򐂰安全及业务连续性(区域9)

安全和业务连续性管理确保所有系统都具有与其对业务的重要性相适应的安全性和可用性。

新数据架构的变化表明,架构正在发生一些变化。如果进一步深入到包含中心区域(信息摄取和分析源)的区域,就会看到更多关于此演化的细节,如下图所示。

a6905d68ac21e9e65c2fb1602b593066.jpg

对于这些变化如下所述:

򐂰着陆区区域(区域1)

着陆区域管理从应用程序和新源接收的原始数据。对该数据执行的验证和重新格式化非常少。

򐂰共享数据分析区域(区域2)

共享数据分析区包含用于报告和分析的数据。

򐂰深度数据区域(区域3)

深度数据区域包含详细的信息,分析人员可以使用这些数据为业务创建新的洞察和总结。在分析处理完成后,这些数据将保留一段时间,以便在分析处理发现意外值时对原始事实进行详细的调查。

򐂰集成的数据仓库及集市区(区域4)

集成的数据仓库和集市区域包含合并和汇总的历史数据,这些数据是为报告和分析而管理的。

򐂰勘探区(区域5)

勘探区提供用于勘探分析的数据。探索性分析使用各种各样的原始数据和管理信息。

򐂰共享操作数据区(区域6)

共享操作数据区域具有包含由多个系统共享的统一操作信息的系统。此区域包括主数据、内容、引用数据和活动数据管理等。

򐂰数据交付区(区域7)

数据交付区域包含准备供数据局交互解决方案使用的信息。数据交付区域通常包含定期刷新的只读数据,以支持使用它的系统的需要。它提供了一些在数据虚拟化中使用的权威信息源,其中原始的信息源不适合直接访问。

下图总结了每个信息区域的一些明显特征。

8b2b94a7327acdbc35c75e283b6c3d24.jpg

大数据架构与大数据应用场景相关。例如,大数据探索为组织带来了新的数据来源,通常是进入着陆区。在那里,可以对数据进行初步检查和检查,以确保数据不会违反信息治理策略,或者包含有害的代码,或者仅仅是无用的数据。在数据经过这个初始评估之后,数据可能会被移动到探测区域进行进一步的评估,例如针对业务假设的沙箱测试。被证明是持续使用的来源被作为生产过程的一部分带入信息供应链。根据它们的数据内容和使用,它们可能流入深层数据区域或共享操作数据区域,或者被聚合到集成的仓库和集市区域。

要将数据移入和通过这些信息区域,还必须考虑将支持这些区域的系统作为新数据架构的一部分。在某些情况下,这些系统明显地落在一个区域内,但在其他情况下,这些系统及其功能跨越多个区域,如下图所示。

813a4eb04f7360008da8ef85866e996d.jpg

下面是功能区各系统的描述,如图上图所示:

򐂰流数据、分析和其他功能引擎(系统1)

流数据、分析和其他功能引擎获取原始数据并执行初始验证、关联、整合和转换以使数据一致,这简化了后续处理。当从高速接收信息时,流数据引擎非常重要,因为这些信息到达得太快而无法存储。流数据引擎可以提取重要的事实并传递给其他系统。

򐂰MapReduce处理(Hadoop)(系统2)

MapReduce Processing (Hadoop)提供了一个灵活的存储系统,可以存储多种格式的数据。模式和其他形式的注释可以在数据存储后映射到数据上,从而允许将其用于多种用途。

򐂰数据仓库(系统3)

新数据架构下仍然需要数据仓库为分析、报告和仪表板提供对合并、聚合和协调信息的有效访问。

򐂰文件系统(系统4)

文件系统有许多用途,特别是用于移动大量信息。

򐂰数据库(系统5)

数据库提供用于实时访问的结构化存储。

򐂰主数据中心(系统6)

供应商、产品、帐户和资产,作为主数据管理(MDM)程序的一部分。

򐂰参考数据中心(系统7)

参考数据中心管理用于转换和关联来自不同来源的信息的值的代码表和层次结构。

򐂰内容中心(系统8)

内容中心管理文档和其他媒体,如图像、视频和音频文件,这些文件必须通过正式流程进行控制和管理。

򐂰活动数据中心(系统9)

活动数据中心管理关于最近活动的综合信息,包括与主数据和内容中心中的实体相关的分析决策。这类数据通常由应用程序管理。然而,由于组织正在处理来自其应用程序范围之外的关于活动的信息,因此需要一种新的中心来管理这类信息的动态特性。

򐂰分析中心(系统10)

分析中心出现在操作中心中,以实时创建额外的洞察力。这些中心支持高级分析,如预测分析和优化,以及业务规则。

򐂰数据集市和多维数据集(系统11)

数据集市和多维数据集仍然提供为特定应用或处理风格格式化的信息子集。它们是定期从分析源刷新的信息的只读副本。

򐂰文件(系统12)

文件仍然被用作某些分析处理的输入,特别是数据挖掘。

򐂰供应引擎(系统13)

供应引擎一是向数据交互解决方案实时提供信息,二是在数据交付区域中创建和维护数据的专门存储,数据交互解决方案将使用这些信息。

򐂰缓存(系统14)

缓存表示内存存储,为数据交互解决方案提供对只读信息的快速访问。

򐂰数据库(系统15)

数据库可以为数据交互解决方案创建的信息提供实时存储。

总体而言,这些系统为数据交互解决方案提供权威信息,无论它们是分析、报告还是决策

管理或其他下游功能。通过使用确定性和受治理的数据供应来维护权威来源,该供应需要将权威来源与信息的其他副本同步。

大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七个核心的能力,如下图所示。

b24d7036caedd9eb18fb79662af601b1.jpg

下面是七个核心功能类别及其组件说明:

򐂰洞察力

򐂰数据虚拟化

򐂰数据准备

򐂰数据引擎

򐂰架构部署

򐂰大数据治理

򐂰服务管理

以上内容逐步介绍了大数据架构的演化过程,下期文章《大数据参考架构设计》继续介绍大数据架构七个核心功能的详细情况,敬请期待!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
24天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
68 1
|
15天前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
1月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
59 3
|
16天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
23天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
55 2
|
1月前
|
SQL 存储 分布式计算
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
大数据-157 Apache Kylin 背景 历程 特点 场景 架构 组件 详解
31 9
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
95 1
|
1月前
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
57 3
|
1月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
下一篇
无影云桌面