基于OSS的EB级数据湖-阿里云开发者社区

基于OSS的EB级数据湖

2020-09-14 9435

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据湖无缝对接多种计算分析平台，对Hadoop生态支持良好，存储在数据湖中的数据可以直接对其进行数据分析、处理、查询，通过对数据深入挖掘与分析，洞察数据中蕴含的价值。

背景

随着数据量的爆发式增长，数字化转型成为整个IT行业的热点，数据也开始需要更深度的价值挖掘，因此需要确保数据中保留的原始信息不丢失，从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐无法适应这样的需求，于是业界也不断的产生新的计算引擎，以便应对数据时代的到来。在此背景下，数据湖的概念被越来越多的人提起，希望能有一套系统在保留数据的原始信息情况下，又能快速对接多种不同的计算平台，从而在数据时代占的先机。

概述

什么是数据湖

数据湖（Data Lake）以集中式存储各种类型数据，包括：结构化、半结构化、非结构化数据。数据湖无需事先定义Schema，数据可以按照原始形态直接存储，覆盖多种类型的数据输入源。数据湖无缝对接多种计算分析平台，对Hadoop生态支持良好，存储在数据湖中的数据可以直接对其进行数据分析、处理、查询，通过对数据深入挖掘与分析，洞察数据中蕴含的价值。

数据湖的关键特征与价值

海量数据存储：面向海量数据存储设计，完全独立于计算框架之外，无需额外的挂载操作，数据可直接访问，具备极大的灵活性和弹性能力，足以应对数据爆炸式发展，同时支持多层冗余能力，实现数据高可靠与高可用
高效数据计算：丰富的数据存储类型和共享能力，支持存储结构化、半结构化、非结构化数据，同时可以适配多种不同的计算平台，避免数据孤岛与无效的数据拷贝
安全数据管理：支持数据目录功能，智能化的管理海量的数据资产，通过精细化权限控制保障数据安全

基于OSS的数据湖存储

OSS介绍

阿里云对象存储OSS（Object Storage Service）是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于99.9999999999%（12个9），服务可用性（或业务连续性）不低于99.995%。OSS具有与平台无关的RESTful API接口，您可以在任何应用、任何时间、任何地点存储和访问任意类型的数据。

基于OSS构建数据湖存储

OSS在作为数据湖存储，充分满足数据湖的关键特性：

海量数据存储：

OSS采用分布式系统架构，扁平命名空间设计，支持无限制的存储规模，并且性能和容量可以随着系统扩展线性提升
OSS支持弹性扩容，容量自动扩展，不限制存储空间大小，用户可以根据所需存储量无限扩展存储空间，并只按照实际使用量收取费用，无需客户自己提前配置
OSS支持数据高可用，1）在同一地域内（region）采用多可用区（AZ）冗余机制以及跨地域的复制机制，避免单点故障导致数据丢失或无法访问；2）支持数据周期性校验，避免静默数据损坏；3）支持Object操作强一致性，写入Object的数据在返回成功响应后，立即可读；4）支持多版本能力，防止数据误删。整体OSS满足12个9的数据持久性以及995%的服务可用性

高效数据计算：

OSS提供RESTFul API，具有互联网可访问能力，用户可以随时随地立即存储或者访问数据，无需提前进行映射和挂载操作
OSS兼容开源Hadoop生态，且无缝对接阿里云多种不同的计算平台，使得数据无需拷贝即可被计算平台共享使用。同时针对部分计算平台优化特定操作，从而提升数据处理性能
OSS支持算子卸载能力，目前提供了Select语句支持，可以让用户从单个文件中仅读取需要的数据，从而提升数据获取效率

安全数据管理：

OSS支持数据生命周期管理，用户可以通过设置生命周期规则，将符合规则的数据自动删除或者转储到更低成本的存储中
OSS支持客户端和服务端两种数据加密能力，用户可以根据自身情况灵活选择加密方案，避免数据泄露
OSS通过WORM（Write Once Read Many）特性，支持数据保留合规，允许用户以“不可删除、不可篡改”方式保存和使用数据，符合美国证券交易委员会（SEC）和金融业监管局（FINRA）的合规要求（OSS已获得对应的合规认证）
OSS支持多种数据访问安全控制策略，实现针对bucket、object、role的长期或者临时授权，从而满足最小权限数据共享的安全策略