谈谈如何跨越数据架构的漩涡

简介: 如果让当前数据工程领域的人绘制一个“现代”数据架构,几乎肯定会得到如下结果:

如果让当前数据工程领域的人绘制一个“现代”数据架构,几乎肯定会得到如下结果:

183a1f03f0a02a3965f2ab8cbb0be7bc.png

这样的数据架构格局反映了基于系统的架构设计方法。这种基于系统的架构有何现代感?它已经存在了将近 10 年,并且没有太大变化。该架构由三个主要组件组成:数据仓库、数据湖和数据集市(或服务层)。


首先是数据仓库。之所以需要拥有独立的数据集市和数据湖,是因为那些传统的数据仓库无法扩展以满足置于其上的不同的、相互竞争的应用场景。数据集市的出现是因为中央数据仓库无法扩展以满足最终用户的不同应用和高并发需求。然后是数据湖,因为企业数据仓库无法存储和处理大数据(在数量、种类和速度方面)。


创建数据湖和数据集市是为了满足当时数据工程领域的实际需求。即使在今天,数据仓库仍然无法支持企业的所有不同应用。即使对于较新的云数据仓库也是如此。这些不同的数据系统导致了孤立的数据,这对于企业从中获取商业价值和安全治理具有非常大的挑战。


用不同的方式思考数据


为了优化数据架构,我们需要停止根据现有类型的系统来思考数据,例如遗留数据仓库、数据集市和数据湖。这样做没有帮助,而且会在企业数据环境中引入人为的边界。


以下是关于如何以不同方式思考数据的建议。在较高级别,可以将所有企业数据分组到以下逻辑数据区域:

2e76345fe6a754c4cc7436573499c2a8.png

因此,让我们开始按照这样的区域而不是系统来考虑数据。旧的基于系统的思维将继续让数据工程专业人员陷入旧的做事方式,并将继续分裂数据格局。采用新的思维模式,无需将数据区域划分为不同的孤立数据系统,例如:

f204b4c2fccfc6a6924b62f4cc9ab818.png

当像单一平台可以打破这些孤岛时,为什么还要用以前的思路思考呢?我们不应考虑系统问题,而应考虑为所有企业数据建立一个单一平台,例如

bdc8b814991c77c2b6bb5d80dd23a5e8.png

构建企业统一的数据平台


我们通常使用多个名称来标识数据的位置和使用方式,包括操作数据存储 (ODS)、企业信息工厂 (CIF)、数据仓库、数据集市等等。每个术语代表在企业内对数据进行分组的不同方式。但不幸的是,今天那些不同的数据组代表了不同的数据系统。让我们开始根据区域(或数据类型)而不是系统来考虑数据。


企业数据架构的目标绝不是将数据格局拆分为多个不同的系统,特别是拆分为数据仓库、数据集市和数据湖。我们需要停止做一些事情,因为“他们总是那样做”,并重新思考我们正在努力完成的事情。我们的目标应该是为企业的所有数据建立一个统一的平台,例如,如下所示:

d2cd0e99719cdb18c9966dc7f68c25c0.png

这样的数据平台可以支持所有的数据仓库、数据湖、数据工程、数据交换、数据应用程序和数据科学的应用场景,我们可以将数据仓库、数据集市和数据湖整合到一个平台中。


大多数“云”数据仓库都是 20 多年前设计的,并且已经迁移到云端。他们无法真正利用云的可扩展性。而那些最近设计的系统不提供完整的企业数据管理体验,提供治理、符合 ACID 的交易、实时数据共享、完全托管服务等。现在是时候开始以不同的方式思考我们的数据了。

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
8月前
|
存储 BI Shell
Doris基础-架构、数据模型、数据划分
Apache Doris 是一款高性能、实时分析型数据库,基于MPP架构,支持高并发查询与复杂分析。其前身是百度的Palo项目,现为Apache顶级项目。Doris适用于报表分析、数据仓库构建、日志检索等场景,具备存算一体与存算分离两种架构,灵活适应不同业务需求。它提供主键、明细和聚合三种数据模型,便于高效处理更新、存储与统计汇总操作,广泛应用于大数据分析领域。
857 2
|
8月前
|
SQL 缓存 前端开发
如何开发进销存系统中的基础数据板块?(附架构图+流程图+代码参考)
进销存系统是企业管理采购、销售与库存的核心工具,能有效提升运营效率。其中,“基础数据板块”作为系统基石,决定了后续业务的准确性与扩展性。本文详解产品与仓库模块的设计实现,涵盖功能概述、表结构设计、前后端代码示例及数据流架构,助力企业构建高效稳定的数字化管理体系。
|
7月前
|
数据采集 缓存 前端开发
如何开发门店业绩上报管理系统中的商品数据板块?(附架构图+流程图+代码参考)
本文深入讲解门店业绩上报系统中商品数据板块的设计与实现,涵盖商品类别、信息、档案等内容,详细阐述技术架构、业务流程、数据库设计及开发技巧,并提供完整代码示例,助力企业构建稳定、可扩展的商品数据系统。
|
6月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
279 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
6月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
7月前
|
数据采集 监控 数据可视化
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
本案例讲述了在豆瓣电影数据采集过程中,面对数据量激增和限制机制带来的挑战,如何通过引入爬虫代理、分布式架构与异步IO等技术手段,实现采集系统的优化与扩展,最终支撑起百万级请求的稳定抓取。
420 0
数据量暴涨时,抓取架构该如何应对?——豆瓣电影案例调研
|
7月前
|
SQL 数据采集 数据处理
终于有人把数据架构讲清楚了!
本文深入浅出地解析了数据架构的核心逻辑,涵盖其定义、作用、设计方法及常见误区,助力读者构建贴合业务的数据架构。
|
8月前
|
数据采集 存储 分布式计算
一文读懂数据中台架构,高效构建企业数据价值
在数字化时代,企业面临数据分散、难以统一管理的问题。数据中台架构通过整合、清洗和管理数据,打破信息孤岛,提升决策效率。本文详解其核心组成、搭建步骤及常见挑战,助力企业高效用数。
2315 24
|
11月前
|
存储 运维 Serverless
千万级数据秒级响应!碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践
碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构,解决了海量数据处理中的资源利用率低、并发能力不足等问题,显著降低了硬件和运维成本。实时查询性能提升8倍,查询出错率减少30倍,集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验,还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。
1053 69
|
7月前
|
缓存 前端开发 BI
如何开发门店业绩上报管理系统中的门店数据板块?(附架构图+流程图+代码参考)
门店业绩上报管理是将门店营业、动销、人效等数据按标准化流程上报至企业中台或BI系统,用于考核、分析和决策。其核心在于构建“数据底座”,涵盖门店信息管理、数据采集、校验、汇总与对接。实现时需解决数据脏、上报慢、分析无据等问题。本文详解了实现路径,包括系统架构、数据模型、业务流程、开发要点、三大代码块(数据库、后端、前端)及FAQ,助你构建高效门店数据管理体系。