再谈数据湖3.0:降本增效背后的创新原动力

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。

前言:

2022年3月 31 日,阿里云全球数据湖峰会上,阿里云从“湖管理、湖存储和湖计算“这三个方面,为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上,阿里云存储对数据湖的能力,进行了再次升级。

数据湖3.0.jpg

数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。

数据湖应用.png

越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。

一、存算分离,数据冷热智能分层

目前,有很多阿里云客户的云上数据湖规模已经超过了100PB,所以可以预见,基于数据湖的数据分析架构是一个不可阻挡的未来发展趋势。那么为什么会需要这样的架构呢?

阿里巴巴集团研究员、阿里云智能资深产品总监Alex Chen认为,究其原因,是因为企业无时无刻地不在产生数据,这些数据需要进行分析,才能激活它的价值。数据分析可以分为实时性分析和探索性分析。实时性分析是用已知数据回答已知问题;探索性分析是用已知数据回答未知问题,所以需要预先把数据都保存下来,这无疑会增加许多存储费用。

Alex.jpg

为了压缩存储成本,阿里云选择了存算分离架构,这种架构提供了独立的扩展性。客户可以做到数据入湖,计算引擎按需扩容,这样的解耦方式会得到更高的性价比。阿里云对象存储OSS是数据湖的统一存储层,可对接各类业务应用、计算分析平台。

在云栖大会上,阿里云存储正式发布了对象存储OSS的深度冷归档类型,价格仅为0.0075元/GB/月,是业界最低成本的云存储类型。选用基于最后一次访问时间的生命周期规则,可实现由服务端根据最后访问时间来自动识别冷热数据,并实现数据分层存储。即使一个桶(Bucket)里面有多个对象(Object),也可以根据最后一次修改时间或者访问时间,对于每个对象,每个文件去做生命周期管理。

数据冷热分层.png

对象存储OSS的归档或冷归档类型的Object,需要解冻(Restore)之后才能读取。归档类型Object解冻完成通常需要数分钟,冷归档类型Object根据不同解冻优先级,解冻完成通常需要数小时,这给一些用户带来了很大的困扰。


为了让用户可以直接读取归档/冷归档存储,对象存储OSS新增归档直读能力,数据无需解冻,直接访问。同时采用数据生命周期管理策略和OSS深度冷归档类型降本增效,可以让整个数据湖成本降低95%


二、多协议兼容,一份数据支持多种应用

随着AI、IoT、云原生技术的发展,对于非结构化数据处理的需求越来越强烈。使用云上对象存储作为统一存储的趋势越来越明显。Hadoop的体系也逐渐由HDFS为统一存储,发展为云上像S3、OSS这样的云存储,作为统一存储的数据湖体系。现在,数据湖已经进入3.0 时代。在存储上,以对象存储为中心,实现了多协议全兼容、统一元数据管理;在管理上,面向湖存储+计算的一站式湖构建和管理,做到智能“建湖”和“治湖”。

数据湖3.0架构图.png

阿里云智能资深产品专家彭亚雄指出,数据湖3.0架构下,提供了全兼容的HDFS服务化能力,用户不再需要搭建元数据管理集群,轻松实现自建HDFS向数据湖架构迁移。同时,原生具备多协议的接入能力及多种元数据的统一管理,实现HDFS与对象存储底层的无缝融合,让数据在多种生态间高效统一流入、管理、使用,帮助用户加速业务创新。100Gbps/PB的读写能力可以进一步提升数据处理效率。

多级存储.jpg

数据分析架构的引擎是在不断迭代的,在AI、自动驾驶场景中,需要让一份数据被多种应用共享。对象存储OSS作为云上数据湖的统一存储底座,提供低成本、可靠的海量数据存储能力。文件存储CPFS与对象存储OSS实现了深度集成,当需要进行推理、仿真这种高性能运算时,通过CPFS可实现对OSS中数据的快速访问和分析,做到数据按需流动和block级别的Lazyload(延迟加载)。


此外,文件存储CPFS支持通过POSIX客户端或NFS客户端两种方式挂载访问文件系统,同时支持通过这两种客户端互相访问,让海量小文件访问起来毫无压力。


三、云上云下互通,业务敏捷创新

随着云计算的蓬勃发展,越来越多的IT系统基础设施转移到云上,数据正在远离企业数据中心。据统计,80%的数据产生在数据中心之外。这个时候,企业数据可以通过RESTful API或者HTTP、VPN的方法来传输到自己的数据中心,也可以传到云上。

构建企业数据湖的时候,可以首先使用数据湖构建DLF来完成数据的入湖和元数据的管理,然后通过日志服务SLS,将全球数据实时投递到数据湖中的OSS,再充分发挥OSS的能力,实现数据的冷热分层,从而使整体的数据湖方案能够达到降本增效的目的。

数据湖降本增效.png

为了便于管理数据,云上和本地数据中心不仅需要统一的命名空间,还需要数据互通。在数据互通的情况,可以把算力随时从线下调到云上,按需分配。当然,实现这些的前提是,传统应用和新兴应用(如IOT、BigData、AI)的数据可以融合在一起。通过混合云IT架构无缝上云已成为企业应用的新常态,混合云存储将成为架起本地数据中心和公共云的桥梁,也已经成为数据湖整体方案不可或缺的部分。


数据湖是面向未来的大数据架构。只有做到文件对象融会贯通、冷热数据智能分层、云上云下数据互通的数据湖,才是拥有广阔前景的数据湖。目前,阿里云3.0数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地,在人工智能、物联网、自动驾驶等拥有海量数据场景的行业得到了广泛应用。未来,阿里云希望同伙伴一起,将云原生数据湖渗透到千行百业,推动更多企业实现数字创新。

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
5月前
|
消息中间件 人工智能 开发框架
火速收藏!2025 云栖大会 AI 中间件议程看点全公开(附免费报名通道)
2025 云栖大会“云智一体 · 碳硅共生”的主题下,9月26日,云栖小镇D1-3馆「AI 中间件论坛」将聚焦 AI 时代中间件的技术演进与创新实践,带来 AI 开发框架、消息队列、事件驱动架构及 API 网关等关键技术在 AI 领域的前沿技术探索、最新产品发布、落地实践经验。
435 43
|
数据采集 JSON API
淘宝商品数据采集API技术分享
在电商领域,数据采集和分析对提升业务效率、优化用户体验至关重要。淘宝作为国内最大电商平台之一,提供了丰富的商品数据。通过淘宝商品采集API,开发者可高效获取这些数据,支持决策。本文详细介绍了如何注册、申请权限、构建请求、处理响应及注意事项,助力商家和开发者利用API进行商品数据采集。
|
10月前
|
存储 分布式计算 OLAP
百观科技基于阿里云 EMR 的数据湖实践分享
百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。
684 59
|
人工智能 分布式计算 大数据
开源大数据平台 3.0 技术解读
阿里云研究员,阿里云计算平台事业部开源大数据平台负责人王峰围绕新一代的流式湖仓、全面 Serverless 化、更智能的开源大数据等多维度解读开源大数据平台 3.0~
1866 1
开源大数据平台 3.0 技术解读
|
机器学习/深度学习 搜索推荐 UED
推荐系统专题 | MiNet:跨域CTR预测
推荐系统专题 | MiNet:跨域CTR预测
676 0
推荐系统专题 | MiNet:跨域CTR预测
|
存储 人工智能 达摩院
在云栖大会,有哪些和存储相关的科技与狠活?
本届云栖大会以“计算·进化·未来”为主题,涵盖2场主论坛、60+场峰会和论坛。作为存储行业从业者,又将如何切身体会到本次大会上那些和存储相关的科技与狠活呢?
686 0
在云栖大会,有哪些和存储相关的科技与狠活?
|
JavaScript Java 测试技术
基于SpringBoot+Vue的高校大学生心理咨询管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue的高校大学生心理咨询管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
339 0
|
缓存 监控 中间件
【分布式技术专题】「Zookeeper中间件」给大家学习一下Zookeeper的”开发伴侣”—Curator-Framework(组件篇)
【分布式技术专题】「Zookeeper中间件」给大家学习一下Zookeeper的”开发伴侣”—Curator-Framework(组件篇)
531 81

热门文章

最新文章