再谈数据湖3.0:降本增效背后的创新原动力

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。

前言:

2022年3月 31 日,阿里云全球数据湖峰会上,阿里云从“湖管理、湖存储和湖计算“这三个方面,为观众带来了“数据湖 3.0” 的重磅升级方案。在时隔两百多天的云栖大会上,阿里云存储对数据湖的能力,进行了再次升级。

数据湖3.0.jpg

数据湖是以集中方式存储各种类型数据,提供弹性的容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台。能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能。

数据湖应用.png

越来越多企业选择数据湖作为企业数据存储、管理的解决方案。同时,数据湖的应用场景也在不断发展,各行各业都在云上构建数据湖,从一开始的简单分析,到互联网搜索推广和深度分析以及近两年大规模的AI训练,都是基于数据湖架构进行的。

一、存算分离,数据冷热智能分层

目前,有很多阿里云客户的云上数据湖规模已经超过了100PB,所以可以预见,基于数据湖的数据分析架构是一个不可阻挡的未来发展趋势。那么为什么会需要这样的架构呢?

阿里巴巴集团研究员、阿里云智能资深产品总监Alex Chen认为,究其原因,是因为企业无时无刻地不在产生数据,这些数据需要进行分析,才能激活它的价值。数据分析可以分为实时性分析和探索性分析。实时性分析是用已知数据回答已知问题;探索性分析是用已知数据回答未知问题,所以需要预先把数据都保存下来,这无疑会增加许多存储费用。

Alex.jpg

为了压缩存储成本,阿里云选择了存算分离架构,这种架构提供了独立的扩展性。客户可以做到数据入湖,计算引擎按需扩容,这样的解耦方式会得到更高的性价比。阿里云对象存储OSS是数据湖的统一存储层,可对接各类业务应用、计算分析平台。

在云栖大会上,阿里云存储正式发布了对象存储OSS的深度冷归档类型,价格仅为0.0075元/GB/月,是业界最低成本的云存储类型。选用基于最后一次访问时间的生命周期规则,可实现由服务端根据最后访问时间来自动识别冷热数据,并实现数据分层存储。即使一个桶(Bucket)里面有多个对象(Object),也可以根据最后一次修改时间或者访问时间,对于每个对象,每个文件去做生命周期管理。

数据冷热分层.png

对象存储OSS的归档或冷归档类型的Object,需要解冻(Restore)之后才能读取。归档类型Object解冻完成通常需要数分钟,冷归档类型Object根据不同解冻优先级,解冻完成通常需要数小时,这给一些用户带来了很大的困扰。


为了让用户可以直接读取归档/冷归档存储,对象存储OSS新增归档直读能力,数据无需解冻,直接访问。同时采用数据生命周期管理策略和OSS深度冷归档类型降本增效,可以让整个数据湖成本降低95%


二、多协议兼容,一份数据支持多种应用

随着AI、IoT、云原生技术的发展,对于非结构化数据处理的需求越来越强烈。使用云上对象存储作为统一存储的趋势越来越明显。Hadoop的体系也逐渐由HDFS为统一存储,发展为云上像S3、OSS这样的云存储,作为统一存储的数据湖体系。现在,数据湖已经进入3.0 时代。在存储上,以对象存储为中心,实现了多协议全兼容、统一元数据管理;在管理上,面向湖存储+计算的一站式湖构建和管理,做到智能“建湖”和“治湖”。

数据湖3.0架构图.png

阿里云智能资深产品专家彭亚雄指出,数据湖3.0架构下,提供了全兼容的HDFS服务化能力,用户不再需要搭建元数据管理集群,轻松实现自建HDFS向数据湖架构迁移。同时,原生具备多协议的接入能力及多种元数据的统一管理,实现HDFS与对象存储底层的无缝融合,让数据在多种生态间高效统一流入、管理、使用,帮助用户加速业务创新。100Gbps/PB的读写能力可以进一步提升数据处理效率。

多级存储.jpg

数据分析架构的引擎是在不断迭代的,在AI、自动驾驶场景中,需要让一份数据被多种应用共享。对象存储OSS作为云上数据湖的统一存储底座,提供低成本、可靠的海量数据存储能力。文件存储CPFS与对象存储OSS实现了深度集成,当需要进行推理、仿真这种高性能运算时,通过CPFS可实现对OSS中数据的快速访问和分析,做到数据按需流动和block级别的Lazyload(延迟加载)。


此外,文件存储CPFS支持通过POSIX客户端或NFS客户端两种方式挂载访问文件系统,同时支持通过这两种客户端互相访问,让海量小文件访问起来毫无压力。


三、云上云下互通,业务敏捷创新

随着云计算的蓬勃发展,越来越多的IT系统基础设施转移到云上,数据正在远离企业数据中心。据统计,80%的数据产生在数据中心之外。这个时候,企业数据可以通过RESTful API或者HTTP、VPN的方法来传输到自己的数据中心,也可以传到云上。

构建企业数据湖的时候,可以首先使用数据湖构建DLF来完成数据的入湖和元数据的管理,然后通过日志服务SLS,将全球数据实时投递到数据湖中的OSS,再充分发挥OSS的能力,实现数据的冷热分层,从而使整体的数据湖方案能够达到降本增效的目的。

数据湖降本增效.png

为了便于管理数据,云上和本地数据中心不仅需要统一的命名空间,还需要数据互通。在数据互通的情况,可以把算力随时从线下调到云上,按需分配。当然,实现这些的前提是,传统应用和新兴应用(如IOT、BigData、AI)的数据可以融合在一起。通过混合云IT架构无缝上云已成为企业应用的新常态,混合云存储将成为架起本地数据中心和公共云的桥梁,也已经成为数据湖整体方案不可或缺的部分。


数据湖是面向未来的大数据架构。只有做到文件对象融会贯通、冷热数据智能分层、云上云下数据互通的数据湖,才是拥有广阔前景的数据湖。目前,阿里云3.0数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地,在人工智能、物联网、自动驾驶等拥有海量数据场景的行业得到了广泛应用。未来,阿里云希望同伙伴一起,将云原生数据湖渗透到千行百业,推动更多企业实现数字创新。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
15天前
|
机器学习/深度学习 存储 SQL
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第27天】Snowflake作为云原生数据仓库的领导者,以其多租户、事务性、安全的特性,支持高度可扩展性和弹性,全面兼容SQL及多种数据类型。本文探讨了Snowflake在现代化数据仓库迁移、实时数据分析、数据存储与管理及机器学习集成等领域的创新实践和应用案例,展示了其在云数据平台中的强大优势和未来潜力。
28 2
|
2月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
2月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
78 4
|
存储 Cloud Native 大数据
实时分析、融合统一及云原生,现代化数据仓库未来发展必经之路|专访飞轮科技 CEO 马如悦
Apache Doris 历经近十年的发展,为何还能持续保持竞争力和活力?其背后的核心推动力又是什么?
|
存储 人工智能 自然语言处理
解密企业数据架构【经典案例】
数据架构是业务与应用系统建设的桥梁:数据架构基于业务架构(业务模式、流程、规则等)识别出业务数据需求,统一数据语言及操作手段,作为应用系统的应用架构(系统功能、组件、接口等)和技术架构(技术指标、技术选型等)设计和开发的依据。
解密企业数据架构【经典案例】
|
存储 人工智能 分布式计算
《SaaS模式云原生数据仓库应用场景实践》电子书重磅来袭! 激活数据生产力,让分析产生价值!
在数据成为生产要素的今天,拥有充沛的算力是全面发掘和释放数据价值的先决条件。
30245 0
《SaaS模式云原生数据仓库应用场景实践》电子书重磅来袭! 激活数据生产力,让分析产生价值!
|
存储 SQL 分布式计算
大数据时代技术架构
1. 概述 当前大数据已经渗透到每个行业和领域,成为了重要的生产因素。在大数据环境下,数据是海量的,且呈爆发式增长,数据类型复杂多样,除结构化数据外,还有大量半结构化和非结构化数据。大数据应用需求也很复杂,包括复杂多表关联查询,即席查询,离线数据批量处理等。这种形势给构建大数据处理的通用平台带来了挑战。 2. 传统数据库构建大数据平台的不足 传统事务型数据库是针对事务型处理设计的,采用行存储和Shared Disk架构,硬件方面采用小型机+磁盘阵列的配置。而面对大数据的分析处理型应用,传统的数据库在处理海量数据方面表现出明显的不足,主要表现在如下方面: Ÿ传统的Shared Disk架
371 9
|
数据可视化 算法 大数据
大数据可视分析背后的商业逻辑
大数据可视分析背后的商业逻辑
大数据可视分析背后的商业逻辑
|
敏捷开发 弹性计算 运维
数智洞察丨云原生:拥抱伟大的技术革新,你的思想上云了吗?
企业上云的最后一个阶段是全面上云,而云原生架构可以最大程度地发挥云的优势,解决交付周期长、资源利用率低等实际业务问题。 到2021年,预计全球70%的企业实现应用的云原生化部署,传统IT架构向云原生转型是大势所趋。云原生架构为何必要?能带来哪些价值?包含哪些概念?本文将为您解读。
数智洞察丨云原生:拥抱伟大的技术革新,你的思想上云了吗?
|
存储 SQL 弹性计算
金融科技数据湖构建和管理之道
上海数禾信息科技有限公司是一家拥有小贷牌照和融资担保牌照的金融科技公司(下称“数禾科技”),公司的核心产品是“还呗”。本文要分享的主题是数禾科技如何在云上构建和管理数据湖。
3298 0
金融科技数据湖构建和管理之道