数据湖vs数据仓库vs数据集市

简介: 数据湖vs数据仓库vs数据集市

数据湖、数据仓库、数据集市,这三个概念都是干什么的,有什么区别呢?这边文章可以为你解释下他们的异同。

数据湖

数据湖里存放了公司来自各个业务系统的数据,包括结构化数据、非结构化数据(比如日志、邮件、音频等),这些数据完全没有经过清洗,原始系统什么样,在数据湖中就怎样存储。

什么时候使用数据湖

公司业务数据非常多,需要廉价的存储来存储所有的数据。

公司非常想挖掘现有和历史的业务数据,但是还没有详细的规划如何分析。所以需要先保存数据,在考虑以后的分析,毕竟对于很多公司来说,数据就是巨大的资产。

数据仓库

数据仓库汇总有可能有很多维度数据的统计分析结果,取百家之长(各个数据源的数据),成就自己的一方天地(规划各种业务域的模型,指标)。

关于数据仓库的详细介绍可参考之前的一篇文章:数据分析师应该了解的数据仓库(1)

数据湖和数据仓库如何选择

如果您目前已经拥有完善的数据仓库,当然不建议删除它重新开始。但是,建议你在建设数据仓库的同时,实施一个数据湖。数据仓库可以继续照常运行,开始用新的数据源填充数据湖,可以将其用于收集所有业务系统数据,然后进行向下建设,沉淀部分数据到数据仓库。

关于数据湖和数据仓库的区别可以参考上一篇文章:数据分析师应该了解的数据湖

数据集市

简单来说,数据集市是数据仓库的一个子部分,专门为特定部门/业务功能设计和构建的。

为什么选择数据集市

数据安全性:由于数据集市仅包含特定于该部门的数据,因此可以确保没有物理上的意外数据访问(比如财务数据等)。

高性能:由于每个数据集市仅用于特定部门,因此通过数据集市性能负载在部门内部得到了很好的管理,不会影响其他集市的分析工作。

数据集市类型

从属数据集市,从现有数据仓库构建从属数据集市。采用自上而下的方法,将所有业务数据存储在一个集中的数据集市,然后在根据需求进行分析。

独立数据集市,独立数据集市是一个独立系统,无需使用数据仓库即可创建,并且专注于一个业务功能。数据从内部或外部数据源中获取,经过精炼,然后加载到数据集市,直到业务分析结束为止。

混合数据集市,混合数据集市集成了来自当前数据仓库和其他运营源系统的数据。它结合自下而上方法,帮助企业集成数据集市。

数据集市和数据仓库的区别

所以,对于大型企业来说,数据湖,数据仓库,数据集市都是共存的,针对不同的用户和部分使用。

拓展:

你们公司是如何保存使用数据的?

数据集市你认为有必要建立吗?

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
3月前
|
存储 数据管理 物联网
深入解析数据仓库与数据湖:建构智能决策的桥梁
在当今信息时代,数据成为企业决策与创新的关键资源。本文将深入探讨数据仓库与数据湖的概念与应用,介绍其在数据管理和分析中的作用,以及如何构建智能决策的桥梁。
|
3月前
|
数据采集 机器学习/深度学习 存储
数据仓库与数据湖:不同的数据管理方式
在当今数据驱动的时代,数据管理成为了企业发展的关键。数据仓库和数据湖是两种不同的数据管理方式。本文将介绍数据仓库和数据湖的概念及其应用,并分析其优缺点,帮助企业选择适合自身的数据管理方式。
|
6月前
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
3月前
|
存储 机器学习/深度学习 数据挖掘
探究数据仓库与数据湖的异同及应用场景
在数据分析与处理方面,数据仓库与数据湖是两种广泛运用的数据架构。本文将深入剖析数据仓库与数据湖的概念、特点、使用场景以及二者之间的区别和联系,帮助读者更好地了解这两种数据架构的优缺点。
|
3月前
|
存储 机器学习/深度学习 数据挖掘
数据仓库与数据湖:解析数据驱动的未来
在数字化时代,数据成为企业决策的核心资源。本文将深入探讨数据仓库和数据湖的概念、特点以及应用场景,分析其在实现数据驱动决策过程中的重要性和优势,并展望数据驱动的未来发展趋势。
51 5
|
3月前
|
存储 数据采集 分布式计算
大规模数据处理:从数据湖到数据仓库
对于大型企业来说,海量的数据是一种巨大的财富,但如何高效地处理这些数据却是一个巨大的挑战。本文将介绍大规模数据处理的两种主流方式:数据湖和数据仓库,并探讨它们的优缺点以及如何选择适合企业的方案。
47 1
|
3月前
|
存储 机器学习/深度学习 运维
数据仓库与数据湖:解析企业数据管理的两大利器
在信息时代,企业数据的管理和分析变得至关重要。数据仓库和数据湖作为两种不同的数据管理模式,各自具有独特的特点和应用场景。本文将深入探讨数据仓库与数据湖的概念、优势和应用,帮助读者更好地理解和运用这两个工具。
31 0
|
4月前
|
存储 大数据 BI
数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。
|
6月前
|
存储 分布式计算 数据挖掘
【数据仓库和数据湖】
【数据仓库和数据湖】
|
6月前
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓