数据湖已经不是一个新概念,在提出的初期也有不少人对数据湖和传统的数仓之间的关系感到困惑。简单来 说,数据湖中一般存储较多的原始数据,包括结构化、半结构化和非结构化的。数据湖在写入时没有模式限制,存 储到数据湖的数据在写入过程中,对数据格式没有限制,可以需要读取数据时,才开始使用各种工具对数据湖中的 数据进行分析,相比数仓成本更低,有更高的灵活性。随着各种数据处理平台和新技术的不断发展,用户对越来越 认识到通过挖掘数据价值去支撑业务发展,用户希望能够将数据统一化集中管理,能够使用统一存储平台支撑各类 计算平台。 8.2 解决方案 数据湖非常适合存储大量的结构化、非结构化和半结构化数据。如果场景中正在处理大量基于事件的数据,比 如应用日志或点击流,那么以原始形式存储这些数据并根据基于场景构建特定的ETL并对接数据平台会让数据处理 与分析更为便捷。阿里云对象存储OSS作为非结构化数据存储池和数据湖底座,为双十一期间淘宝、天猫、支付 宝等应用提供了如丝般顺滑的图片、视频体验。方案优势:( 1 ) 消除数据孤岛:用户的数据可以使用同一个命名空间下统一存储,同一个份数据,可对接多个数据分析平 台,避免孤岛以及数据搬迁。 ( 2 ) 不限制数据类型:支持结构化、半结构化、非结构化数据的存储。 ( 4 ) 数据冷热分层:多种存储类型组合,用户可根据数据冷热,进行数据分层,优化存储成本。 ( 5 ) 计算与存储解耦合:存储空间弹性伸缩,计算的扩缩容与存储解耦,让系统架构更加灵活,成本更节约。 ( 6 ) 访问控制:提供更丰富的存储访问控制策略,让数据更安全。 ( 3 ) 计算生态丰富:支持多种数据导入方式,支持对接开源系统、阿里云多个数据分析平台,和数据消费框架。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。