数据湖和数据中台

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 简要介绍数据湖的特点和功能,与数据仓库的区别。此外,还介绍了数据中台的作用和功能。

数据湖
数据湖是在大数据环境下,针对传统数据仓库的不足,在2011年提出的一种集中式数据存储技术。传统数据仓库开发时间长,成本高,只支持结构化的数据。随着数据量的快速增加,数据仓库也需要存储半结构化和非结构化的数据,这就催生了数据湖的出现。
与数据仓库相比,数据湖有一些新的特点:数据湖只需较低成本,就可以存储了任意规模的原始数据,并以原来的格式存储,不需要预定义模型或者结构化处理就能进行各种数据分析,例如,从SQL查询、可视化、大数据处理、全文搜索、实时分析到机器学习。这些数据包括业务系统的结构化数据,也包括来自移动应用程序、IoT 设备、日志文件、点击流和社交媒体的半结构化的和非结构化的数据。数据湖可以把数据集中存储在单一环境中,其中的模型(schema)不像数据仓库设计时就要确定,而是在分析时才确定,供跨部门的业务分析使用,支持客户智能和各类业务运营分析。
数据湖由多个数据池组成,其属性包括数据更新频率、数据来源、数据量、数据选择标准、数据关系等,可以使用键、索引等元数据描述。基于数据湖架构的扩展性,用户可以在比较短的时间内从更多的数据源获得并利用多种类型的数据,辅助决策。数据湖还可以提供实时的智能分析。例如,可以将来自客户关系管理(CRM)系统的客户购买历史数据与社交媒体数据,使用户能够了解高价值的客户群、客户流失的原因以及如何促销将提升客户忠诚度。
数据仓库和数据湖并不相互排斥,它们可满足不同的分析需求和使用场景。数据湖面对的问题是由于其存储了原始数据,数据的可用性和安全需要进一步的考虑。云计算的发展为数据湖的实现提供了经济、高效的平台支撑。

数据中台
数据中台是一个企业级的逻辑概念,本质上是一种用于数据共享的企业级系统,处于企业前台与后台之间的中间层,一般分为数据中台和业务中台。前台开发主要完成应用开发,后台开发的主要工作是数据管理,而数据中台主要为企业内部提供数据服务。
数据中台的前身是数据仓库和大数据分析系统。为什么企业在数据仓库的基础上还要建数据中台?这是因为数据中台的一些功能是传统数据仓库所不具备的。数据中台要把共性的资源、能力整合在一起,把面向客户的价值独立出来。即把各种能力和资源在生产侧独立,在消费侧聚合,提供数据服务。因此,数据中台主要面向业务而非面向技术。
数据中台可以在业务方需要数据服务的时候优先提供数据服务,为业务产生价值。甚至可以在数据没有对应数据仓库存储的情况下优先构造可供调用的服务之后再逐步完善数据服务,把它自动化。
数据中台是企业的数据服务工厂,关注数据中蕴含的业务价值,提供数据分析功能,更加注重驱动前台业务更加智能化。数据中台可以把数据以及数据模型标准化、组件化,提高数据分析的效率,让数据服务应用变得容易。
数据中台由下列主要模块组成:
(1)数据治理。对一个企业而言,数据中台中的数据往往决定了其价值,数据治理与规划是在上层支持与维护数据资产目录。
(2)数据的采集和存储。这个模块为数据中台提供汇集内部和外部的结构化和非结构化数据采集能力,支持对周期批量采集,对产生频率高、实时性的数据以数据流形式采集。在数据采集模块中仍然可以使用传统的ETL工具来实现数据采集、转换、加载,对于周期性采集工作可以采用API调用以及网络爬虫。数据存储可以使用传统的数据仓库以及新型的分布式数据库进行混合存储。
(3)数据共享。数据中台中的数据对内部各个部门的业务线开放,保证所提供的数据服务对需要使用数据服务的用户可见和共享。
(4)数据的业务价值提供。这个模块使数据价值最大化,集成一些数据分析、数据挖掘、大规模数据计算的工具,需要集成批量离线计算、内存计算、在线流式计算、机器学习、深度学习、数据挖掘等相关技术。提供面向用户的数据价值探索功能。
(5)数据服务与管理。这个模块主要借助消息接口、文件接口、服务接口、SDK软件包等方式来提供组件能力或数据服务,不必关心底层数据情况,直接调用数据服务模块对外提供的服务接口,用于管理数据中台所提供的服务,减少发现服务和构建服务的成本,提高数据服务的使用效率。
 赵卫东. 商务智能(第五版). 北京:清华大学出版社,2021

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
5月前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
存储 数据采集 安全
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
285 0
|
存储 机器学习/深度学习 数据采集
万字详解数据仓库、数据湖、数据中台和湖仓一体 ​(二)
详解数据仓库、数据湖、数据中台和湖仓一体
1093 0
万字详解数据仓库、数据湖、数据中台和湖仓一体  ​(二)
|
存储 数据采集 分布式计算
万字详解数据仓库、数据湖、数据中台和湖仓一体 ​(一)
详解数据仓库、数据湖、数据中台和湖仓一体
1457 0
万字详解数据仓库、数据湖、数据中台和湖仓一体  ​(一)
|
存储 SQL 数据采集
|
存储 数据挖掘 数据处理
数据中台-数据仓库、数据湖、数据中台的区别
数据中台构建于数据湖之上,具备数据湖异构数据统一计算、存储的能力,同时让数据湖中杂乱的数据通过规范化的方式管理起来。数据湖、数据仓库和数据中台,他们并没有直接的关系,只是他们为业务产生价值的形式有不同的侧重。
1014 0
|
8月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
176 2
|
8月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
288 1
|
11天前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
5月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
372 53