数据湖的概念

简介: 数据湖的概念

数据湖产生的背景
由于云技术的推动,企业对于跨公司、跨行业、跨领域的综合型数据的需求日趋明显,不同类型、格式数据之间的关联性碰撞越来越激烈,刺激着数据技术的创新发展,逐渐形成了大数据生态结构。当前面临的问题的复杂性、综合性、交叉性,导致数据的使用成本越来越高,企业迫切需求能够有效打破数据孤岛、解决数据主权、统一数据汇聚和共享的混合式数据平台,数据湖应运而生。

数据湖的概念
早在2011年,福布斯的一篇文章中介绍了数据湖(Data Lake)的概念,针对数据仓库中的开发周期长、维护、开发成本高、丢失细节数据等不足进行的补充。数据湖是一种大型数据存储库和处理引擎。它能够大量存储各种类型的数据,拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。维基百科对 Datalake 的解释:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。形象的描述数据湖是指用湖来形容存储数据的平台,流入湖中的水表示未经处理的原始数据,这些数据包括表格、文本、声音、图像等等。湖中的水就代表存储的各种数据,在湖中可以进行数据的处理、分析、建模、加工,处理后的数据仍然可以留在湖中。而流出的水代表经过分析后,下流所需要的数据,再到达用户端,提供信息得出结论。

数据湖的主要思想将是不用类型、不同领域的原始数据进行统一的存储,包括结构化数据、半结构化数据和二进制数据,形成一个容纳所有形式的数据的集中式数据存储集。这个数据存储集具备庞大的数据存储规模,T级别的计算能力,满足多元化的数据信息交叉分析以及大同容量、高速度的数据管道。

目录
相关文章
|
存储 SQL 分布式计算
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数据中台领域建设,将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析,来阐述两者融合演进的新方向——湖仓一体,并就基于阿里云MaxCompute/EMR DataLake的湖仓一体方案做一介绍。
27996 2
数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体
|
存储 SQL 分布式计算
数据湖架构及概念简介
本文整理自阿里云开源大数据技术专家陈鑫伟在7月17日阿里云数据湖技术专场交流会的分享。
2842 0
数据湖架构及概念简介
|
存储 机器学习/深度学习 大数据
数据库、数据仓库与数据湖的概念与基本特点
数据库、数据仓库与数据湖的概念与基本特点
|
存储 消息中间件 数据采集
数据湖(一):数据湖概念
数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析对数据进行加工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。
904 1
数据湖(一):数据湖概念
|
存储 SQL 分布式计算
|
存储 分布式计算 Hadoop
带你读《企业数据湖》之二:数据湖概念概览
在本章中,我们将深入探究数据湖,以及构建数据湖时会用到的模式。
2369 0
|
存储 消息中间件 分布式计算
|
6月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
136 2
|
6月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
253 1
|
3月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
234 53