4. 数据湖存储解决方案
1)需求背景
数据湖已经不是一个新概念,在提出的初期也有不少人对数据湖和传统的数仓之间的关系感到困惑。
简单来说,数据湖中一般存储较多的原始数据,包括结构化数据(如关系型数据库中的表),半结构化数据(如CSV、JSON 、XML、日志等),非结构化数据(如电子邮件、文档、PDF等)以及二进制数据(如图形、音频、视频等)。
数据湖在写入时没有模式限制,存储到数据湖的数据在写入过程中,对数据格式没有限制,可以需要读取数据时,才开始使用各种工具对数据湖中的数据进行分析,相比数仓成本更低,有更高的灵活性。
随着各种数据处理平台和新技术的不断发展,用户对越来越认识到通过挖掘数据价值去支撑业务发展,用户希望能够将数据统一化集中管理,能够使用统一存储平台支撑各类计算平台。
2)解决方案
数据湖非常适合存储大量的结构化、非结构化和半结构化数据。如果场景中正在处理大量基于事件的数据,比如应用日志或点击流,那么以原始形式存储这些数据并根据基于场景构建特定的ETL并对接数据平台会让数据处理与分析更为便捷。
阿里云对象存储OSS作为非结构化数据存储池和数据湖底座,为双十一期间淘宝、天猫、支付宝等应用提供了如丝般顺滑的图片、视频体验。
方案优势:
∙ 消除数据孤岛:用户的数据可以使用同一个命名空间下统一存储,同一个份数据,可对接多个数据分析平台,避免孤岛以及数据搬迁。
∙ 不限制数据类型:支持结构化、半结构化、非结构化数据的存储。
∙ 计算生态丰富:支持多种数据导入方式,支持对接开源系统、阿里云多个数据分析平台,和数据消费框架。
∙ 数据冷热分层:多种存储类型组合,用户可根据数据冷热,进行数据分层,优化存储成本。
∙ 计算与存储解耦合:存储空间弹性伸缩,计算的扩缩容与存储解耦,让系统架构更加灵活,成本更节约。
∙ 访问控制:提供更丰富的存储访问控制策略,让数据更安全。