大数据治理系列:4 大数据架构形成的历史渊源(续)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。

上篇文章《大数据架构形成的历史渊源》介绍了传统数据架构的主要形式以及为了适应不断发展的处理数据的模式,要不断创新数据架构。下图提供了一种体系架构方法,该方法使用新的数据源扩展现有系统,以支持组织所需的新信息需求。这种信息架构方法有三个目标:

1. 结合来自整个组织的最佳信息,供操作和分析系统使用。

2. 通过分析以前未利用的信息源,用相关的事实和事件触发器增加合并信息。

3.更容易地定位信息,并将其交付到业务最需要的地方。

06fc624e343c6001100c092b967b4cda.jpg

下面是该架构中编号功能的描述:

򐂰后台应用程序(区域1)

后台应用程序运行并处理业务事务。这些系统包括订单处理、记账、市场营销、产品开发和销售类型的系统。通常,它们使用自己的数据独立地进行操作,但是它们可以与分析源中的操作系统交换信息。

򐂰新数据源(区域2)

新数据源是提供信息以补充后台应用程序生成的信息的系统。这些资源可能来自第三方,也可能是内部资源,例如日志、电子邮件和其他基于文本的资源。

򐂰数据采集(区域3)

数据采集收集来自后台应用程序的原始信息,以及用于验证、关联、清理和转换的新数据源。

򐂰分析源(区域4)

分析源为不同类型的分析处理提供信息:

-有些分析处理发生在托管分析源的系统内部。

-当数据在分析源之间移动时,一些分析处理发生在供应引擎中。

-一些分析处理发生在信息交互系统。新数据环境中的分析源包括共享的操作系统,如主数据中心、引用数据中心、活动数据中心和内容管理中心,以及数据仓库、MapReduce (Hadoop)、文件、数据库和数据集市等系统,这些系统承载着从许多来源获得的历史信息。

򐂰数据访问(区域5)

数据访问使数据交互解决方案能够定位和使用信息,而不需要确切地了解数据的物理存储和维护位置。此功能称为数据虚拟化的方法的一部分,是新数据处理领域的关键补充

򐂰数据交互(区域6)

数据交互解决方案包括系统的参与和先进的分析能力。他们主要使用来自分析来源的数据。数据交互解决方案可以生成一些反馈到分析源的数据。

򐂰事件检测和处理(区域7)

当在应用程序、分析源和数据交互解决方案中检测到重要事件时,事件检测和操作将触发业务流程和其他活动。这是新数据处理领域的另一个重要补充。

򐂰数据治理、风险和合规(区域8)

数据治理、风险和遵从性提供了确保数据在其生命周期中得到适当管理的能力,并提供了与数据的敏感性和使用相一致的质量和保护级别。

򐂰安全及业务连续性(区域9)

安全和业务连续性管理确保所有系统都具有与其对业务的重要性相适应的安全性和可用性。

新数据架构的变化表明,架构正在发生一些变化。如果进一步深入到包含中心区域(信息摄取和分析源)的区域,就会看到更多关于此演化的细节,如下图所示。

a6905d68ac21e9e65c2fb1602b593066.jpg

对于这些变化如下所述:

򐂰着陆区区域(区域1)

着陆区域管理从应用程序和新源接收的原始数据。对该数据执行的验证和重新格式化非常少。

򐂰共享数据分析区域(区域2)

共享数据分析区包含用于报告和分析的数据。

򐂰深度数据区域(区域3)

深度数据区域包含详细的信息,分析人员可以使用这些数据为业务创建新的洞察和总结。在分析处理完成后,这些数据将保留一段时间,以便在分析处理发现意外值时对原始事实进行详细的调查。

򐂰集成的数据仓库及集市区(区域4)

集成的数据仓库和集市区域包含合并和汇总的历史数据,这些数据是为报告和分析而管理的。

򐂰勘探区(区域5)

勘探区提供用于勘探分析的数据。探索性分析使用各种各样的原始数据和管理信息。

򐂰共享操作数据区(区域6)

共享操作数据区域具有包含由多个系统共享的统一操作信息的系统。此区域包括主数据、内容、引用数据和活动数据管理等。

򐂰数据交付区(区域7)

数据交付区域包含准备供数据局交互解决方案使用的信息。数据交付区域通常包含定期刷新的只读数据,以支持使用它的系统的需要。它提供了一些在数据虚拟化中使用的权威信息源,其中原始的信息源不适合直接访问。

下图总结了每个信息区域的一些明显特征。

8b2b94a7327acdbc35c75e283b6c3d24.jpg

大数据架构与大数据应用场景相关。例如,大数据探索为组织带来了新的数据来源,通常是进入着陆区。在那里,可以对数据进行初步检查和检查,以确保数据不会违反信息治理策略,或者包含有害的代码,或者仅仅是无用的数据。在数据经过这个初始评估之后,数据可能会被移动到探测区域进行进一步的评估,例如针对业务假设的沙箱测试。被证明是持续使用的来源被作为生产过程的一部分带入信息供应链。根据它们的数据内容和使用,它们可能流入深层数据区域或共享操作数据区域,或者被聚合到集成的仓库和集市区域。

要将数据移入和通过这些信息区域,还必须考虑将支持这些区域的系统作为新数据架构的一部分。在某些情况下,这些系统明显地落在一个区域内,但在其他情况下,这些系统及其功能跨越多个区域,如下图所示。

813a4eb04f7360008da8ef85866e996d.jpg

下面是功能区各系统的描述,如图上图所示:

򐂰流数据、分析和其他功能引擎(系统1)

流数据、分析和其他功能引擎获取原始数据并执行初始验证、关联、整合和转换以使数据一致,这简化了后续处理。当从高速接收信息时,流数据引擎非常重要,因为这些信息到达得太快而无法存储。流数据引擎可以提取重要的事实并传递给其他系统。

򐂰MapReduce处理(Hadoop)(系统2)

MapReduce Processing (Hadoop)提供了一个灵活的存储系统,可以存储多种格式的数据。模式和其他形式的注释可以在数据存储后映射到数据上,从而允许将其用于多种用途。

򐂰数据仓库(系统3)

新数据架构下仍然需要数据仓库为分析、报告和仪表板提供对合并、聚合和协调信息的有效访问。

򐂰文件系统(系统4)

文件系统有许多用途,特别是用于移动大量信息。

򐂰数据库(系统5)

数据库提供用于实时访问的结构化存储。

򐂰主数据中心(系统6)

供应商、产品、帐户和资产,作为主数据管理(MDM)程序的一部分。

򐂰参考数据中心(系统7)

参考数据中心管理用于转换和关联来自不同来源的信息的值的代码表和层次结构。

򐂰内容中心(系统8)

内容中心管理文档和其他媒体,如图像、视频和音频文件,这些文件必须通过正式流程进行控制和管理。

򐂰活动数据中心(系统9)

活动数据中心管理关于最近活动的综合信息,包括与主数据和内容中心中的实体相关的分析决策。这类数据通常由应用程序管理。然而,由于组织正在处理来自其应用程序范围之外的关于活动的信息,因此需要一种新的中心来管理这类信息的动态特性。

򐂰分析中心(系统10)

分析中心出现在操作中心中,以实时创建额外的洞察力。这些中心支持高级分析,如预测分析和优化,以及业务规则。

򐂰数据集市和多维数据集(系统11)

数据集市和多维数据集仍然提供为特定应用或处理风格格式化的信息子集。它们是定期从分析源刷新的信息的只读副本。

򐂰文件(系统12)

文件仍然被用作某些分析处理的输入,特别是数据挖掘。

򐂰供应引擎(系统13)

供应引擎一是向数据交互解决方案实时提供信息,二是在数据交付区域中创建和维护数据的专门存储,数据交互解决方案将使用这些信息。

򐂰缓存(系统14)

缓存表示内存存储,为数据交互解决方案提供对只读信息的快速访问。

򐂰数据库(系统15)

数据库可以为数据交互解决方案创建的信息提供实时存储。

总体而言,这些系统为数据交互解决方案提供权威信息,无论它们是分析、报告还是决策

管理或其他下游功能。通过使用确定性和受治理的数据供应来维护权威来源,该供应需要将权威来源与信息的其他副本同步。

大数据架构提供了新数据环境下的处理能力,大数据架构不仅必须扩展到包含传统和大数据源,而且还需要更广泛的功能集来支持数据的消费、处理和交付。大数据架构需要七个核心的能力,如下图所示。

b24d7036caedd9eb18fb79662af601b1.jpg

下面是七个核心功能类别及其组件说明:

򐂰洞察力

򐂰数据虚拟化

򐂰数据准备

򐂰数据引擎

򐂰架构部署

򐂰大数据治理

򐂰服务管理

以上内容逐步介绍了大数据架构的演化过程,下期文章《大数据参考架构设计》继续介绍大数据架构七个核心功能的详细情况,敬请期待!

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
145 2
|
20天前
|
分布式计算 大数据 数据处理
经典大数据处理框架与通用架构对比
【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。
32 3
经典大数据处理框架与通用架构对比
|
21天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
49 5
|
2月前
|
存储 SQL 分布式计算
闲侃数仓优化-大数据治理和优化
闲侃数仓优化-大数据治理和优化
41 0
|
14天前
|
存储 数据采集 数据挖掘
“湖仓一体架构及其应用”写作框架,系统架构设计师
随着5G、大数据、人工智能、物联网等技术的不断成熟,各行各业的业务场景日益复杂,企业数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式增长趋势。在这一背景下,企业数据管理不再局限于传统的结构化OLTP(On-Line Transaction Processing)数据交易过程,而是提出了多样化、异质性数据的实时处理要求。传统的数据湖(Data Lake)在事务一致性及实时处理方面有所欠缺,而数据仓库(Data Warehouse)也无法应对高并发、多数据类型的处理。因此,支持事务一致性、提供高并发实时处理及分析能力的湖仓一体(Lake House)架构应运而生。湖仓一体架构在成本、
|
2天前
|
存储 数据可视化 大数据
大数据平台架构设计与实施
【7月更文挑战第3天】本文探讨了大数据平台的关键技术,包括数据采集(如Kafka、Flume)、存储(HDFS、HBase、Cassandra)、处理(Hadoop、Spark)、分析挖掘及可视化工具。架构设计涉及数据收集、存储、处理、分析和应用层,强调各层次的协同与扩展性。实施步骤涵盖需求分析、技术选型、架构设计、系统部署、数据迁移、应用开发测试及上线运维,旨在为企业决策提供强有力的数据支持。
|
6天前
|
SQL 存储 运维
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
|
11天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用问题之dataworks仅支持maxcompute上面的数据治理吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
存储 数据采集 算法
大数据平台治理——运营的角度看数仓
大数据平台治理——运营的角度看数仓
26 0
|
2月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
47 0