带你读《云存储应用白皮书》之31:4. 数据湖存储解决方案

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 带你读《云存储应用白皮书》之31:4. 数据湖存储解决方案

4. 数据湖存储解决方案

 

1需求背景

 

数据湖已经不是一个新概念,在提出的初期也有不少人对数据湖和传统的数仓之间的关系感到困惑。

 

简单来说,数据湖中一般存储较多的原始数据,包括结构化数据(如关系型数据库中的表),半结构化数据(如CSVJSON XML、日志等),非结构化数据(如电子邮件、文档、PDF等)以及二进制数据(如图形、音频、视频等)。

 

数据湖在写入时没有模式限制,存储到数据湖的数据在写入过程中,对数据格式没有限制,可以需要读取数据时,才开始使用各种工具对数据湖中的数据进行分析,相比数仓成本更低,有更高的灵活性。

 

随着各种数据处理平台和新技术的不断发展,用户对越来越认识到通过挖掘数据价值去支撑业务发展,用户希望能够将数据统一化集中管理,能够使用统一存储平台支撑各类计算平台。

 

2解决方案

 

数据湖非常适合存储大量的结构化、非结构化和半结构化数据。如果场景中正在处理大量基于事件的数据,比如应用日志或点击流,那么以原始形式存储这些数据并根据基于场景构建特定的ETL并对接数据平台会让数据处理与分析更为便捷。

 

阿里云对象存储OSS作为非结构化数据存储池和数据湖底座,为双十一期间淘宝、天猫、支付宝等应用提供了如丝般顺滑的图片、视频体验。

 

image.png

 

 

 

方案优势:

 

∙       消除数据孤岛:用户的数据可以使用同一个命名空间下统一存储,同一个份数据,可对接多个数据分析平台,避免孤岛以及数据搬迁。


∙       不限制数据类型:支持结构化、半结构化、非结构化数据的存储。


∙       计算生态丰富:支持多种数据导入方式,支持对接开源系统、阿里云多个数据分析平台,和数据消费框架。


∙       数据冷热分层:多种存储类型组合,用户可根据数据冷热,进行数据分层,优化存储成本。


∙       计算与存储解耦合:存储空间弹性伸缩,计算的扩缩容与存储解耦,让系统架构更加灵活,成本更节约。


∙       访问控制:提供更丰富的存储访问控制策略,让数据更安全。


相关文章
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
5月前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
203 5
|
6月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
134 2
|
3月前
|
存储 数据采集 数据挖掘
数据仓库VS数据湖:选择正确的数据存储解决方案
【8月更文挑战第23天】企业在选择数据存储解决方案时,应综合考虑业务需求、数据特性、技术实力及成本效益等多方面因素,以做出最符合自身发展的决策。
|
3月前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
5月前
|
存储 分布式计算 OLAP
Apache Paimon统一大数据湖存储底座
Apache Paimon,始于Flink Table Store,发展为独立的Apache顶级项目,专注流式数据湖存储。它提供统一存储底座,支持流、批、OLAP,优化了CDC入湖、流式链路构建和极速OLAP查询。Paimon社区快速增长,集成Flink、Spark等计算引擎,阿里巴巴在内部广泛应用,旨在打造统一湖存储,打通Serverless Flink、MaxCompute等,欢迎大家扫码参与体验阿里云上的 Flink+Paimon 的流批一体服务。
14230 7
Apache Paimon统一大数据湖存储底座
|
3月前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46842 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
6月前
|
存储 分布式计算 DataWorks
【阿里云云原生专栏】云原生下的数据湖建设:阿里云MaxCompute与DataWorks解决方案
【5月更文挑战第26天】在数字化时代,数据成为企业创新的关键。阿里云MaxCompute和DataWorks提供了一种构建高效、可扩展数据湖的解决方案。数据湖允许存储和分析大量多格式数据,具备高灵活性和扩展性。MaxCompute是PB级数据仓库服务,擅长结构化数据处理;DataWorks则是一站式大数据协同平台,支持数据集成、ETL和治理。通过DataWorks收集数据,MaxCompute存储和处理,企业可以实现高效的数据分析和挖掘,从而提升业务洞察和竞争力。
460 0
|
6月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛