从零到一建设数据中台 - 架构概览

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 从零到一建设数据中台 - 架构概览

数据中台功能架构概览

image.png

数据中台相关名词解释

1.数据仓库:

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。因此,其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量,组成数据模型,为决策分析提供通用的数据分析能力。数据仓库重在建数据,而数据中台则将 建、治、管、服 放到同样的高度,数据仓库只是数据中台的一个子集。

用一个蔬菜储存的例子来简单理解一下:

如果我们把地里的蔬菜看作是数据,那么土地就是数据库。在蔬菜成熟后,我们需要把蔬菜从地里摘下来放在地窖,那么地窖就是数据仓库。

在把蔬菜放到地窖需要拔菜、择菜、放菜这三个步骤,这三步就是ETL。存放到地窖里的都是干净健康的蔬菜,这些干净健康的蔬菜就是结构化/半结构化的数据。

一块地一般只种植一种蔬菜,但是一个地窖可以存放各种各样的蔬菜,所以数据仓库可以储存来自于多个数据源的数据。后续我们需要从地窖里拿蔬菜去做菜,这个做菜的过程就是用BI进行分析,做好的成品就是分析报表。

image.png

2.数据湖:

数据湖是一种数据存储理念,作为一个集中的存储库,它可以以自然格式存储任意规模的数据,包括来自关系数据库行和列的结构化数据,XML、JSON、日志等半结构化数据,电子邮件、文档等非结构化数据,以及图像、音视频等的二进制数据,从而实现数据的集中式管理。目前Hadoop是最常见的实现数据湖概念的技术。比如HBase可让数据湖保存海量数据,Spark可以使得数据湖批量分析数据,而Flink等可让数据湖实时接入和处理IoT数据等。

image.png

3.湖仓一体:

湖仓一体是一种新型的开放式架构,打通了数据仓库和数据湖,将数据仓库的高性能及管理能力与数据湖的灵活性融合了起来,底层支持多种数据类型并存,能实现数据间的相互共享,上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。

4.数据中台:(数据 + 业务沉淀)

数据中台是对既有或新建信息化系统业务与数据的沉淀,是实现数据赋能新业务、新应用的中间、支撑性平台。数据中台是对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台主要承担以下四个方面的工作,分别是对数据的「采集」「存储」「打通」「使用」。

5.大数据平台:

数据中台不等于大数据。数据中台是基于大数据、人工智能等技术构建的数据采、存、通、管、用的平台。数据中台需要以Hadoop、Spark等为代表的大数据处理技术做支撑,但绝不能将数据中台与大数据划等号。数据中台不只有大数据处理技术,还包括智能算法、与业务联动的特性、数据资产、数据工具等。

数据中台功能构成

image.png

数据中台七大功能组成:

  • 基础服务:包含了底层存储、中间件等基础服务,这里主要是开发团队根据产品需求和成本来定。
  • 数据收集:包含了数据源管理、数据采集、数据传输等数据接入服务。
  • 数据清洗整合:包含了标签管理、元数据管理、数据仓库等。
  • 数据挖掘分析:包含了算法模型、机器学习、行为分析、数据分析模型等。
  • 数据服务管理:包含了数据权限管理、可视化管理、数据指标体系等。
  • 数据应用:包含了BI 报表平台、数据营销、客户分析平台、用户画像等。
  • 数据安全:包含了数据监控、数据加密、数据脱敏等。



相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
7月前
|
存储 SQL 分布式计算
TiDB整体架构概览:构建高效分布式数据库的关键设计
【2月更文挑战第26天】本文旨在全面概述TiDB的整体架构,深入剖析其关键组件和功能,从而帮助读者理解TiDB如何构建高效、稳定的分布式数据库。我们将探讨TiDB的计算层、存储层以及其他核心组件,并解释这些组件是如何协同工作以实现卓越的性能和扩展性的。通过本文,读者将能够深入了解TiDB的整体架构,为后续的学习和实践奠定坚实基础。
|
供应链 架构师 双11
供应链业务架构设计概览(一)
供应链业务架构设计概览
1592 0
|
供应链 监控 数据可视化
供应链业务架构设计概览(二)
供应链业务架构设计概览
734 0
|
前端开发 定位技术 项目管理
【架构设计 领域驱动开发 二】基本概念概览
【架构设计 领域驱动开发 二】基本概念概览
103 0
|
架构师
「TOGAF架构框架」ArchiMate视图指南(1):基本视图概览
「TOGAF架构框架」ArchiMate视图指南(1):基本视图概览
|
存储 设计模式 缓存
【云应用架构】Azure 云设计模式概览
【云应用架构】Azure 云设计模式概览
|
架构师
「架构框架」ArchiMate视图指南(1):基本视图概览
「架构框架」ArchiMate视图指南(1):基本视图概览
|
负载均衡 网络协议 NoSQL
【服务网格架构】Envoy架构概览(10):热启动,动态配置,初始化,排水,脚本
【服务网格架构】Envoy架构概览(10):热启动,动态配置,初始化,排水,脚本
|
JSON 缓存 负载均衡
【服务网格架构】Envoy架构概览(9):访问日志,MongoDB,DynamoDB,Redis
【服务网格架构】Envoy架构概览(9):访问日志,MongoDB,DynamoDB,Redis
|
网络协议 数据可视化 NoSQL
【服务网格架构】Envoy架构概览(8):统计,运行时配置,追踪和TCP代理
【服务网格架构】Envoy架构概览(8):统计,运行时配置,追踪和TCP代理
下一篇
DataWorks