企业在数据湖实施之前需要试水

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
日志服务 SLS,月写入数据量 50GB 1个月
简介:

企业在实施大规模数据湖之前,应该从小规模开始,并将该技术作为对现有分析系统的扩展。

最近,数据湖已经开始在IT行业涌现。数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境(例如数据仓库或数据集市)剥离的能力。

例如,数据仓库的提取,转换和加载预处理消除了告诉系统何时到达或插入“操作数据存储”的日志。

但在当今的行业中,数据湖似乎至少有两个定义。一个来自存储公司的是,数据湖是允许元数据存储的磁盘存储基础设施。另一个主要是营销驱动的,是混合通常不混合的多个数据存储的一个湖。根据专家的定义,没有销售全面数据湖的供应商,而是人们使用Hadoop和本地工具访问数据来将它们拼凑在一起。

由于最初的供应商炒作让位于真实世界的实验,用户发现数据市场的最佳实践并不适用于数据湖。为了避免早期用户的错误,适当地解决数据湖的实施,而不是大规模。以下是一些在处理数据湖时证明有用的最佳实践。

记住,数据湖是探索性的

数据湖实施应该允许组织以特别的和探索的方式扩展现有的分析。

从当前分析系统不会及时获取的高度数据的核心(例如客户事务日志)中增长数据湖中的数据类型。大多数现有的分析不足以真实了解应用程序的行为。数据仓库和Hadoop等数据管理方案失去了重要的数据。

大数据分析系统提供商Pentaho公司的首席技术官James Dixon在博客上例举了一个例子:数据仓库等系统并不捕获客户购买过程中的每一步,而是事务日志。这样的购买过程的设计对于典型的数据架构师似乎是直接的,但是在每个步骤中可能有数分钟甚至数小时的滞后。

通过发现流程中的滞后,用户可以开始与客户面对的数据湖实现,购买相关的交易。分析对企业的整体分析工作具有探索性和重要性,因为一旦用户更彻底地分析客户日志时间戳,还不清楚会发现什么。

数据集市,湖泊和仓库之间有什么区别?

数据集市是数据仓库的变体。数据仓库存储来自整个组织的较旧的数据,用于报告和分析。多个数据集市大致相当于数据仓库,通常在自己的IT环境中为子公司服务。用户可以有多个数据集市进入数据仓库,或者只是松散耦合的数据集市。

集成是实现数据湖的关键

将数据湖与其他企业数据架构(包括数据治理和主要数据管理)完全集成也很重要。了解哪些数据类型对数据仓库或数据集市很重要,以及原始数据是否正确和一致。实施数据治理实践,以避免分析有缺陷的数据。

数据湖的长期发展

数据湖有潜力。但是,除非人们能够更好地了解自己可以长期提供什么,否则这很可能只是一个时尚,除非他们的利益比迄今为止具体显示的更广泛。

Dixon在并入时序和间距时的数据仓库问题的例子只是当今的分析继续依赖简单统计数据,而不考虑什么“坏”数据可以告诉人们的一个实例。由于数据湖实施可以发掘分析中的关键“陷阱”,因此它值得任何企业进行探索。然而,从长远来看,这需要实验和仔细平衡数据湖和整体信息架构。


本文作者:佚名

来源:51CTO

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
5月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
357 53
|
8月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
149 2
|
8月前
|
存储 机器学习/深度学习 运维
数据仓库与数据湖:解析企业数据管理的两大利器
在信息时代,企业数据的管理和分析变得至关重要。数据仓库和数据湖作为两种不同的数据管理模式,各自具有独特的特点和应用场景。本文将深入探讨数据仓库与数据湖的概念、优势和应用,帮助读者更好地理解和运用这两个工具。
198 0
|
存储 SQL 机器学习/深度学习
「数据战略」数据驱动企业和DataOps :数据仓库与数据湖:入门
「数据战略」数据驱动企业和DataOps :数据仓库与数据湖:入门
|
存储 SQL 分布式计算
谈谈企业如何实施数据湖(下)
目前,很多大型集团企业都在热烈讨论建立数据湖的最佳方式。
谈谈企业如何实施数据湖(下)
|
存储 机器学习/深度学习 分布式计算
谈谈企业如何实施数据湖(上)
目前,很多大型集团企业都在热烈讨论建立数据湖的最佳方式。
谈谈企业如何实施数据湖(上)
|
存储 机器学习/深度学习 SQL
企业如何搭建敏捷数据湖架构
“数据湖”是当前很多人、很多企业都在谈论的最新流行的话题之一。可是,让我们认真想一想,数据湖是不是像许多流行的IT词一样,很少有人真正知道如何解释它,能够实现什么价值以及如何设计和构建它。
企业如何搭建敏捷数据湖架构
|
存储 人工智能 Cloud Native
|
机器学习/深度学习 运维 Cloud Native
报名倒计时 | 解锁企业数据湖仓先进开启方式,探秘机器学习高阶玩法!
数据湖作为大数据领域炙手可热的技术之一,已成为当今企业追逐的技术风向标。同时,云原生分布式数仓的先进风潮也正席卷传统的数据仓库领域,引领着未来数仓的发展方向。如果您还在思考如何将二者的优势兼顾,打造适合企业的数据湖仓一体化方案,那么本次阿里云企业数据湖仓和机器学习最佳实践研讨会将会给你答案!
200 0
报名倒计时 | 解锁企业数据湖仓先进开启方式,探秘机器学习高阶玩法!
|
存储 SQL 分布式计算
阿里云云原生数据湖分析DLA Serverless Spark重磅发布,助力企业低成本挖掘OSS数据价值
由于解决了用户当前遇到的数据分散、复杂、难管理的问题,数据湖方案越来越深入人心,阿里云DLA产品提供了一体化解决方案,从数据湖管理到数据湖分析和计算。相对于在线引擎,Spark更适合弹性计算架构,可以跟云原生的弹性能力深度整合起来。从传统IDC到搬站上云到完全Serverless化,这条路径已经被越来越被认可为云技术的发展路径。DLA Spark采用完全云原生 + Serverless形式,相对于传统的自建Hadoop在性价比方面拥有数倍的优势。
3436 0
阿里云云原生数据湖分析DLA Serverless Spark重磅发布,助力企业低成本挖掘OSS数据价值