谈谈数据湖和数据仓库

简介: 数据湖是近十年来出现的一个术语,用于描述大数据世界中数据分析管道的重要组成部分 。

数据湖是近十年来出现的一个术语,用于描述大数据世界中数据分析管道的重要组成部分 。这个想法是为组织中的任何人可能需要分析的所有原始数据建立一个单一的存储区。人们通常使用 Hadoop 来处理湖中的数据,但这个概念比 Hadoop 更广泛。

当提到一个单一的点可以将一个组织想要分析的所有数据集中在一起时,我立即想到了数据仓库和数据集市的概念。但是数据湖和数据仓库之间有一个重要的区别。数据湖以数据源提供的任何形式存储原始数据。没有关于数据模式的假设,每个数据源都可以使用它喜欢的任何模式。数据的使用者需要根据自己的目的来理解这些数据。

7d8a554278cb7eb7f7aa72c68d06f5cc.png

许多数据仓库由于模式问题而没有取得太大进展。数据仓库倾向于采用单一模式的概念来满足所有分析需求,但单一的统一数据模型对于除最小组织之外的任何组织都是不切实际的。即使要为稍微复杂的域建模,也需要多个有界上下文,每个都有自己的数据模型。在分析方面,需要每个分析用户使用对他们正在进行的分析有意义的模型。通过转向仅存储原始数据,这将责任推给了数据分析师。

数据仓库的另一个问题是确保数据质量。试图获得权威的单一数据源需要对不同系统如何获取和使用数据进行大量分析。系统 A 可能适用于某些数据,而系统 B 可能适用于其他数据。这便会遇到一些规则,系统 A 更适合最近的订单,而系统 B 更适合一个月或更早以前的订单,除非涉及退货。最重要的是,数据质量往往是一个主观问题,不同的分析对数据质量问题的容忍度不同,甚至对什么是好质量的概念也不同。

这导致了对数据湖的批判——它只是质量参差不齐的数据的垃圾场,更确切地说是数据沼泽。批评既有道理又无关紧要。新分析的热门标题是“数据科学家”。尽管这是一个经常被滥用的头衔,但这些人中的许多人确实拥有扎实的科学背景。任何严肃的科学家都知道数据质量问题。试想一下随时间分析温度读数的简单问题,必须考虑到某些气象站的重新定位可能会微妙地影响读数、设备问题导致的异常、传感器不工作时的缺失时段数据。许多复杂的统计技术都是为了解决数据质量问题而创建的。科学家总是对数据质量持怀疑态度,习惯于处理有问题的数据。所以对他们来说,湖泊很重要,因为他们可以使用原始数据,并且可以慎重地应用技术来理解它,而不是一些可能弊大于利的不透明数据清理机制。

数据仓库通常不仅会清理数据,还会将数据聚合成一种更易于分析的形式。但科学家们也倾向于反对这一点,因为聚合意味着丢弃数据。数据湖应该包含所有数据,因为不知道人们会发现什么有价值,无论是今天还是几年后。

它们正在被一些月末处理报告修改。所以简而言之,数据仓库中的这些值是无用的;科学家担心无法进行这种比较。经过更多挖掘,发现这些报告已被存储,因此可以提取当时所做的真实预测。这种原始数据的复杂性意味着有空间将数据整理成更易于管理的结构以及减少相当大的数据量。不应该直接访问数据湖。因为数据是原始数据,所以需要很多技巧才能理解它。在数据湖中工作的人相对较少,因为他们发现了湖中通常有用的数据视图,他们可以创建许多数据集市,每个数据集市都有一个针对单个有界上下文的特定模型。然后,更多的下游用户可以将这些集市视为该上下文的权威来源。

8305f9926ec40e1b2dc64c04bbe64bd0.png

现在,很多时候我们已经将数据湖视为跨企业集成数据的单一点,但应该指出,这并不是它最初的意图。这个词是 James Dixon 在 2010 年创造的,当时他打算将数据湖用于单个数据源,多个数据源将形成一个“水上花园”。尽管有最初的表述,但现在普遍的用法是将数据湖视为整合了许多来源。

我们应该将数据湖用于分析目的,而不是用于业务系统之间的协作。当业务系统协作时,它们应该通过为此目的设计的服务来实现,例如 RESTful HTTP 调用或异步消息传递。

重要的是,所有放入湖中的数据都应该有明确的时间和地点来源。每个数据项都应该清楚地跟踪它来自哪个系统以及何时生成数据。因此,数据湖包含历史记录。这可能来自将业务系统事件馈送到湖中,也可能来自定期将当前状态转储到湖中的系统——当源系统没有任何时间能力但想要对其数据进行时间分析时,这种方法很有价值。

数据湖是无模式的,由源系统决定使用什么模式,并由消费者决定如何处理由此产生的混乱。此外,源系统可以随意更改其流入数据模式,而消费者也必须应对。显然,我们更希望此类更改的破坏性尽可能小,但科学家更喜欢全面的数据而不是缺失数据。

数据湖将变得非常大,并且大部分存储都围绕着大型无模式结构的概念——这就是为什么 Hadoop 和 HDFS 通常是人们用于数据湖的技术。数据湖中集市的一项重要任务是减少需要处理的数据量,这样大数据分析就不必处理大量数据。

数据湖对大量原始数据的存储引发了有关隐私和安全的尴尬问题。数据湖对黑客来说是一个诱人的目标,他们可能喜欢把选择的数据块吸进公共海洋。限制小型数据科学组织直接访问数据湖可能会减少这种威胁,但无法避免该组织如何对其获取的数据的隐私负责的问题。

相关文章
|
7月前
|
存储 数据管理 物联网
深入解析数据仓库与数据湖:建构智能决策的桥梁
在当今信息时代,数据成为企业决策与创新的关键资源。本文将深入探讨数据仓库与数据湖的概念与应用,介绍其在数据管理和分析中的作用,以及如何构建智能决策的桥梁。
|
7月前
|
数据采集 机器学习/深度学习 存储
数据仓库与数据湖:不同的数据管理方式
在当今数据驱动的时代,数据管理成为了企业发展的关键。数据仓库和数据湖是两种不同的数据管理方式。本文将介绍数据仓库和数据湖的概念及其应用,并分析其优缺点,帮助企业选择适合自身的数据管理方式。
|
6月前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
242 5
|
7月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
140 2
|
4月前
|
存储 数据采集 数据挖掘
数据仓库VS数据湖:选择正确的数据存储解决方案
【8月更文挑战第23天】企业在选择数据存储解决方案时,应综合考虑业务需求、数据特性、技术实力及成本效益等多方面因素,以做出最符合自身发展的决策。
|
4月前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
7月前
|
存储 机器学习/深度学习 数据挖掘
数据仓库与数据湖:解析数据驱动的未来
在数字化时代,数据成为企业决策的核心资源。本文将深入探讨数据仓库和数据湖的概念、特点以及应用场景,分析其在实现数据驱动决策过程中的重要性和优势,并展望数据驱动的未来发展趋势。
210 5
|
7月前
|
存储 数据采集 分布式计算
大规模数据处理:从数据湖到数据仓库
对于大型企业来说,海量的数据是一种巨大的财富,但如何高效地处理这些数据却是一个巨大的挑战。本文将介绍大规模数据处理的两种主流方式:数据湖和数据仓库,并探讨它们的优缺点以及如何选择适合企业的方案。
88 1
|
7月前
|
存储 大数据 BI
数据仓库、数据湖、湖仓一体,究竟有什么区别?
近几年大数据概念太多了,数据库和数据仓库还没搞清楚,就又出了数据湖,现在又说什么“湖仓一体”。乙方公司拼命造概念,甲方公司不管三七二十一,吭哧吭哧花钱搞数据建设。到头来发现,钱也花了,人力也投入了,但最基本的业务需求都解决不了。
|
7月前
|
存储 机器学习/深度学习 数据挖掘
探究数据仓库与数据湖的异同及应用场景
在数据分析与处理方面,数据仓库与数据湖是两种广泛运用的数据架构。本文将深入剖析数据仓库与数据湖的概念、特点、使用场景以及二者之间的区别和联系,帮助读者更好地了解这两种数据架构的优缺点。

热门文章

最新文章