前言:
2022年3月 31 日,阿里云全球数据湖峰会上,阿里云从“湖管理、湖存储和湖计算“这三个方面,为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上,阿里云存储对数据湖的能力,进行了再次升级。
数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。
越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。
一、存算分离,数据冷热智能分层
目前,有很多阿里云客户的云上数据湖规模已经超过了100PB,所以可以预见,基于数据湖的数据分析架构是一个不可阻挡的未来发展趋势。那么为什么会需要这样的架构呢?
阿里巴巴集团研究员、阿里云智能资深产品总监Alex Chen认为,究其原因,是因为企业无时无刻地不在产生数据,这些数据需要进行分析,才能激活它的价值。数据分析可以分为实时性分析和探索性分析。实时性分析是用已知数据回答已知问题;探索性分析是用已知数据回答未知问题,所以需要预先把数据都保存下来,这无疑会增加许多存储费用。
为了压缩存储成本,阿里云选择了存算分离架构,这种架构提供了独立的扩展性。客户可以做到数据入湖,计算引擎按需扩容,这样的解耦方式会得到更高的性价比。阿里云对象存储OSS是数据湖的统一存储层,可对接各类业务应用、计算分析平台。
在云栖大会上,阿里云存储正式发布了对象存储OSS的深度冷归档类型,价格仅为0.0075元/GB/月,是业界最低成本的云存储类型。选用基于最后一次访问时间的生命周期规则,可实现由服务端根据最后访问时间来自动识别冷热数据,并实现数据分层存储。即使一个桶(Bucket)里面有多个对象(Object),也可以根据最后一次修改时间或者访问时间,对于每个对象,每个文件去做生命周期管理。
对象存储OSS的归档或冷归档类型的Object,需要解冻(Restore)之后才能读取。归档类型Object解冻完成通常需要数分钟,冷归档类型Object根据不同解冻优先级,解冻完成通常需要数小时,这给一些用户带来了很大的困扰。
为了让用户可以直接读取归档/冷归档存储,对象存储OSS新增归档直读能力,数据无需解冻,直接访问。同时采用数据生命周期管理策略和OSS深度冷归档类型降本增效,可以让整个数据湖成本降低95%。
二、多协议兼容,一份数据支持多种应用
随着AI、IoT、云原生技术的发展,对于非结构化数据处理的需求越来越强烈。使用云上对象存储作为统一存储的趋势越来越明显。Hadoop的体系也逐渐由HDFS为统一存储,发展为云上像S3、OSS这样的云存储,作为统一存储的数据湖体系。现在,数据湖已经进入3.0 时代。在存储上,以对象存储为中心,实现了多协议全兼容、统一元数据管理;在管理上,面向湖存储+计算的一站式湖构建和管理,做到智能“建湖”和“治湖”。
阿里云智能资深产品专家彭亚雄指出,数据湖3.0架构下,提供了全兼容的HDFS服务化能力,用户不再需要搭建元数据管理集群,轻松实现自建HDFS向数据湖架构迁移。同时,原生具备多协议的接入能力及多种元数据的统一管理,实现HDFS与对象存储底层的无缝融合,让数据在多种生态间高效统一流入、管理、使用,帮助用户加速业务创新。100Gbps/PB的读写能力可以进一步提升数据处理效率。
数据分析架构的引擎是在不断迭代的,在AI、自动驾驶场景中,需要让一份数据被多种应用共享。对象存储OSS作为云上数据湖的统一存储底座,提供低成本、可靠的海量数据存储能力。文件存储CPFS与对象存储OSS实现了深度集成,当需要进行推理、仿真这种高性能运算时,通过CPFS可实现对OSS中数据的快速访问和分析,做到数据按需流动和block级别的Lazyload(延迟加载)。
此外,文件存储CPFS支持通过POSIX客户端或NFS客户端两种方式挂载访问文件系统,同时支持通过这两种客户端互相访问,让海量小文件访问起来毫无压力。
三、云上云下互通,业务敏捷创新
随着云计算的蓬勃发展,越来越多的IT系统基础设施转移到云上,数据正在远离企业数据中心。据统计,80%的数据产生在数据中心之外。这个时候,企业数据可以通过RESTful API或者HTTP、VPN的方法来传输到自己的数据中心,也可以传到云上。
构建企业数据湖的时候,可以首先使用数据湖构建DLF来完成数据的入湖和元数据的管理,然后通过日志服务SLS,将全球数据实时投递到数据湖中的OSS,再充分发挥OSS的能力,实现数据的冷热分层,从而使整体的数据湖方案能够达到降本增效的目的。
为了便于管理数据,云上和本地数据中心不仅需要统一的命名空间,还需要数据互通。在数据互通的情况,可以把算力随时从线下调到云上,按需分配。当然,实现这些的前提是,传统应用和新兴应用(如IOT、BigData、AI)的数据可以融合在一起。通过混合云IT架构无缝上云已成为企业应用的新常态,混合云存储将成为架起本地数据中心和公共云的桥梁,也已经成为数据湖整体方案不可或缺的部分。
数据湖是面向未来的大数据架构。只有做到文件对象融会贯通、冷热数据智能分层、云上云下数据互通的数据湖,才是拥有广阔前景的数据湖。目前,阿里云3.0数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地,在人工智能、物联网、自动驾驶等拥有海量数据场景的行业得到了广泛应用。未来,阿里云希望同伙伴一起,将云原生数据湖渗透到千行百业,推动更多企业实现数字创新。