谈谈如何跨越数据架构的漩涡

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 如果让当前数据工程领域的人绘制一个“现代”数据架构,几乎肯定会得到如下结果:

如果让当前数据工程领域的人绘制一个“现代”数据架构,几乎肯定会得到如下结果:

183a1f03f0a02a3965f2ab8cbb0be7bc.png

这样的数据架构格局反映了基于系统的架构设计方法。这种基于系统的架构有何现代感?它已经存在了将近 10 年,并且没有太大变化。该架构由三个主要组件组成:数据仓库、数据湖和数据集市(或服务层)。


首先是数据仓库。之所以需要拥有独立的数据集市和数据湖,是因为那些传统的数据仓库无法扩展以满足置于其上的不同的、相互竞争的应用场景。数据集市的出现是因为中央数据仓库无法扩展以满足最终用户的不同应用和高并发需求。然后是数据湖,因为企业数据仓库无法存储和处理大数据(在数量、种类和速度方面)。


创建数据湖和数据集市是为了满足当时数据工程领域的实际需求。即使在今天,数据仓库仍然无法支持企业的所有不同应用。即使对于较新的云数据仓库也是如此。这些不同的数据系统导致了孤立的数据,这对于企业从中获取商业价值和安全治理具有非常大的挑战。


用不同的方式思考数据


为了优化数据架构,我们需要停止根据现有类型的系统来思考数据,例如遗留数据仓库、数据集市和数据湖。这样做没有帮助,而且会在企业数据环境中引入人为的边界。


以下是关于如何以不同方式思考数据的建议。在较高级别,可以将所有企业数据分组到以下逻辑数据区域:

2e76345fe6a754c4cc7436573499c2a8.png

因此,让我们开始按照这样的区域而不是系统来考虑数据。旧的基于系统的思维将继续让数据工程专业人员陷入旧的做事方式,并将继续分裂数据格局。采用新的思维模式,无需将数据区域划分为不同的孤立数据系统,例如:

f204b4c2fccfc6a6924b62f4cc9ab818.png

当像单一平台可以打破这些孤岛时,为什么还要用以前的思路思考呢?我们不应考虑系统问题,而应考虑为所有企业数据建立一个单一平台,例如

bdc8b814991c77c2b6bb5d80dd23a5e8.png

构建企业统一的数据平台


我们通常使用多个名称来标识数据的位置和使用方式,包括操作数据存储 (ODS)、企业信息工厂 (CIF)、数据仓库、数据集市等等。每个术语代表在企业内对数据进行分组的不同方式。但不幸的是,今天那些不同的数据组代表了不同的数据系统。让我们开始根据区域(或数据类型)而不是系统来考虑数据。


企业数据架构的目标绝不是将数据格局拆分为多个不同的系统,特别是拆分为数据仓库、数据集市和数据湖。我们需要停止做一些事情,因为“他们总是那样做”,并重新思考我们正在努力完成的事情。我们的目标应该是为企业的所有数据建立一个统一的平台,例如,如下所示:

d2cd0e99719cdb18c9966dc7f68c25c0.png

这样的数据平台可以支持所有的数据仓库、数据湖、数据工程、数据交换、数据应用程序和数据科学的应用场景,我们可以将数据仓库、数据集市和数据湖整合到一个平台中。


大多数“云”数据仓库都是 20 多年前设计的,并且已经迁移到云端。他们无法真正利用云的可扩展性。而那些最近设计的系统不提供完整的企业数据管理体验,提供治理、符合 ACID 的交易、实时数据共享、完全托管服务等。现在是时候开始以不同的方式思考我们的数据了。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
2月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
57 8
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
428 7
|
2月前
|
数据采集 搜索推荐 数据管理
数据架构 CDP 是什么?
数据架构 CDP 是什么?
70 2
|
5月前
|
机器学习/深度学习 数据采集 人工智能
揭秘!47页文档拆解苹果智能,从架构、数据到训练和优化
【8月更文挑战第23天】苹果公司发布了一份47页的研究文档,深入解析了其在智能基础语言模型领域的探索与突破。文档揭示了苹果在此领域的雄厚实力,并分享了其独特的混合架构设计,该设计融合了Transformer与RNN的优势,显著提高了模型处理序列数据的效能与表现力。然而,这种架构也带来了诸如权重平衡与资源消耗等挑战。苹果利用海量、多样的高质量数据集训练模型,但确保数据质量及处理噪声仍需克服。此外,苹果采取了自监督与无监督学习相结合的高效训练策略,以增强模型的泛化与稳健性,但仍需解决预训练任务选择及超参数调优等问题。
164 66
|
6月前
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
95 0
|
4月前
|
存储 搜索推荐 数据库
MarkLogic在微服务架构中的应用:提供服务间通信和数据共享的机制
随着微服务架构的发展,服务间通信和数据共享成为关键挑战。本文介绍MarkLogic数据库在微服务架构中的应用,阐述其多模型支持、索引搜索、事务处理及高可用性等优势,以及如何利用MarkLogic实现数据共享、服务间通信、事件驱动架构和数据分析,提升系统的可伸缩性和可靠性。
59 5
|
3月前
|
存储 大数据 数据处理
洞察未来:数据治理中的数据架构新思维
数据治理中的数据架构新思维对于应对未来挑战、提高数据处理效率、加强数据安全与隐私保护以及促进数据驱动的业务创新具有重要意义。企业需要紧跟时代步伐,不断探索和实践新型数据架构,以洞察未来发展趋势,为企业的长远发展奠定坚实基础。
|
5月前
|
安全 网络安全 数据安全/隐私保护
云原生技术探索:容器化与微服务架构的实践之路网络安全与信息安全:保护数据的关键策略
【8月更文挑战第28天】本文将深入探讨云原生技术的核心概念,包括容器化和微服务架构。我们将通过实际案例和代码示例,展示如何在云平台上实现高效的应用部署和管理。文章不仅提供理论知识,还包含实操指南,帮助开发者理解并应用这些前沿技术。 【8月更文挑战第28天】在数字化时代,网络安全和信息安全是保护个人和企业数据的前线防御。本文将探讨网络安全漏洞的成因、加密技术的应用以及提升安全意识的重要性。文章旨在通过分析网络安全的薄弱环节,介绍如何利用加密技术和提高用户警觉性来构建更为坚固的数据保护屏障。
|
5月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
5月前
|
机器学习/深度学习 自然语言处理 数据处理

热门文章

最新文章