带你读《云存储应用白皮书》之31:4. 数据湖存储解决方案

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 带你读《云存储应用白皮书》之31:4. 数据湖存储解决方案

4. 数据湖存储解决方案

 

1需求背景

 

数据湖已经不是一个新概念,在提出的初期也有不少人对数据湖和传统的数仓之间的关系感到困惑。

 

简单来说,数据湖中一般存储较多的原始数据,包括结构化数据(如关系型数据库中的表),半结构化数据(如CSVJSON XML、日志等),非结构化数据(如电子邮件、文档、PDF等)以及二进制数据(如图形、音频、视频等)。

 

数据湖在写入时没有模式限制,存储到数据湖的数据在写入过程中,对数据格式没有限制,可以需要读取数据时,才开始使用各种工具对数据湖中的数据进行分析,相比数仓成本更低,有更高的灵活性。

 

随着各种数据处理平台和新技术的不断发展,用户对越来越认识到通过挖掘数据价值去支撑业务发展,用户希望能够将数据统一化集中管理,能够使用统一存储平台支撑各类计算平台。

 

2解决方案

 

数据湖非常适合存储大量的结构化、非结构化和半结构化数据。如果场景中正在处理大量基于事件的数据,比如应用日志或点击流,那么以原始形式存储这些数据并根据基于场景构建特定的ETL并对接数据平台会让数据处理与分析更为便捷。

 

阿里云对象存储OSS作为非结构化数据存储池和数据湖底座,为双十一期间淘宝、天猫、支付宝等应用提供了如丝般顺滑的图片、视频体验。

 

image.png

 

 

 

方案优势:

 

∙       消除数据孤岛:用户的数据可以使用同一个命名空间下统一存储,同一个份数据,可对接多个数据分析平台,避免孤岛以及数据搬迁。


∙       不限制数据类型:支持结构化、半结构化、非结构化数据的存储。


∙       计算生态丰富:支持多种数据导入方式,支持对接开源系统、阿里云多个数据分析平台,和数据消费框架。


∙       数据冷热分层:多种存储类型组合,用户可根据数据冷热,进行数据分层,优化存储成本。


∙       计算与存储解耦合:存储空间弹性伸缩,计算的扩缩容与存储解耦,让系统架构更加灵活,成本更节约。


∙       访问控制:提供更丰富的存储访问控制策略,让数据更安全。


相关文章
|
8月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
471 2
|
10月前
|
存储 JSON 分布式计算
数据湖,不“唬”你:这是大数据存储的新秩序!
数据湖,不“唬”你:这是大数据存储的新秩序!
240 2
|
10月前
|
存储 SQL 测试技术
抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师在Flink Forward Asia 2024的分享,围绕流式湖仓架构的背景、实践与未来展望展开。内容涵盖实时数仓架构演进、Paimon的应用与优化,以及在长周期指标计算和大流量场景下的落地实践经验。
865 0
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
488 0
|
存储 分布式计算 大数据
数据湖——大数据存储的新思维,如何打破传统束缚?
数据湖——大数据存储的新思维,如何打破传统束缚?
479 16
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
723 5
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
存储 分布式计算 OLAP
Apache Paimon统一大数据湖存储底座
Apache Paimon,始于Flink Table Store,发展为独立的Apache顶级项目,专注流式数据湖存储。它提供统一存储底座,支持流、批、OLAP,优化了CDC入湖、流式链路构建和极速OLAP查询。Paimon社区快速增长,集成Flink、Spark等计算引擎,阿里巴巴在内部广泛应用,旨在打造统一湖存储,打通Serverless Flink、MaxCompute等,欢迎大家扫码参与体验阿里云上的 Flink+Paimon 的流批一体服务。
21429 8
Apache Paimon统一大数据湖存储底座
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
存储 数据采集 数据挖掘
数据仓库VS数据湖:选择正确的数据存储解决方案
【8月更文挑战第23天】企业在选择数据存储解决方案时,应综合考虑业务需求、数据特性、技术实力及成本效益等多方面因素,以做出最符合自身发展的决策。
1511 2