应“云”而生,“智能湖仓”如何成为构建数据能力的最优解?

本文涉及的产品
对象存储 OSS,20GB 3个月
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 这家科技巨头如何找到数据时代最优解?

科技云报道原创。

随着新一轮科技革命和产业革命深入交织,数字经济正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。

image.png

在这一过程中,作为数字化底座的云,已经不仅仅局限于基础设施角色,更是企业持续创新和精益运营的关键支撑。

能否从云上获取更多价值,将成为企业能否在数字时代拥有一席之地、持续领先领跑的关键。

而云原生对基础设施的革新,带来了一系列“蝴蝶效应”。

随着云原生技术已在互联网、金融等行业“落地开花”,云原生基础设施不仅可以丰富数字化应用场景的多元化实践,也将为企业发展提供可持续的内生动力,“智能湖仓”便是其中最为重要的技术架构之一。

作为“智能湖仓”架构的提出者,亚马逊云科技在云原生数据基础设施方面持续迭代创新。

3月14日,亚马逊云原生数据湖S3迎来17周岁,在Pi Day 2023上,亚马逊云科技对Amazon S3发展历程进行全面回顾,不断激发数据的更大价值。

image.png

从“数据仓库”到“数据湖”

IDC统计显示,预计到2025年,全球数据量将比2016年的16.1ZB增加十倍,达到163ZB。

数据的海量与多元化决定了从数据中获取有用的价值变得越来越困难,如果无法从数据中获得益处,那么数据价值就无从谈起。

目前,数据的价值呈现两极化特征,一是及时发现,实时分析快速促进业务发展;二是长期存放,数据累积起来,探索数据后隐藏的规律,统一分析其价值,为业务发展提供参考。

新的数据价值将给企业带来更多智能创新应用,比如增长黑客、推荐系统,用户行为分析,AIoT带来的更多模型,这也意味着IT基础设施的变革。

传统数据处理方式,就像“涓涓细流”,里面有ERP、CRM等各种业务系统,用户可以设计“一个河道”,数据库在最底层。

数据经过整理后形成中间层的数据仓库,然后通过商务智能工具(BI)来及进行展示。

但在数字化时代,各种各样的视频、移动终端信息如“滔滔江水”,形成大规模的海量数据,用户来不及整理和使用。

这时,一个新的设想打开了人们的视野,假设有那么一片洼地,把所有数据先蓄积到里面,然后通过有效的工具进行查询和处理,这便是数据湖。

国际研究机构MarketsandMarkets最新研究报告显示,到2024年,全球数据湖市场将突破200亿美元,增至201亿美元,复合年增长率将高达20.6%。

可以说,随着数据治理与应用需求激增,数据湖成为数据管理的重要方式已成为不争的事实。

数据湖的出现,很好的解决了数据仓库建设存在的一系列问题,将数据管理的流程简化为2个阶段,数据入湖和数据分析。

数据湖一般以免运维、高可靠的对象存储为底座,支持各种数据类型的存储。

对于用户来说,借助最新的数据湖解决方案,不仅能解决过去的数据孤岛问题,同时还能兼容传统的数据仓库和数据分析方法。

最重要的是,更适合现代应用部署,比如和机器学习结合,进行预测性的分析。

“智能湖仓”成技术新趋势

随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。

有人说数据湖是下一代大数据平台,各大云厂商也纷纷提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。

不过在我们看来,数据湖与数据仓库并不是替代关系,而是互为补充、相辅相成,在此基础上的“智能湖仓”将能充分实现两者间的良性互动,成为未来重要的数据技术趋势之一。

“智能湖仓”通过数据仓库治理能力的引入,既可以很好的解决上面提到的数据湖建设的问题,也为更好的挖掘湖中数据价值提供了基础,将高效建仓、灵活建湖的两大优势融合在了一起。

image.png

不同于传统数据仓库的管理方式,“智能湖仓”极大地提高了数据开发的效率,同时降低了数据管理的难度。

过去处理数据,需要资深的数据架构师定义数仓的规划,从数仓的分层、指标的定义到数据集市模型设计,然后交给专业的数据工程师进行业务开发,再由业务人员进行验证,有一套规范但却复杂的过程。而“智能湖仓”的出现,让企业能够快速的基于业务进行开发,又能够灵活的调整和规划自己的数据管理方式。

另外,“智能湖仓”也让大数据行业内各个角色之间的交互变得更加自如。基于“智能湖仓”的数据管理理念,各类数据应用角色能够更好的相互协作,共同开发。

如数据科学家可以方便的集成自己的数据并以纳入标准数仓流程进行管理、业务分析师也能够自己开发数据需求等。

“智能湖仓”打破孤岛勾勒数据价值未来

谈到“智能湖仓”,不得不提到其最为重要的支撑——Amazon S3 ( Simple Storage Service )。

17年前,亚马逊云科技推出了Amazon S3服务,首次定义了对象存储,S3由此成为对象存储事实上的标准,具有划时代意义。2015年,Amazon S3支持数万亿对象存储,平均在线峰值每秒可处理150万请求,设计为99.999999999%(“11个9”)的持久性。

2022年,亚马逊云科技迎来又一座里程碑。Amazon S3存储的对象数量已经超过200万亿,每秒可处理数千万个请求。

亚马逊云科技发布Amazon Redshift支持auto-copy from Amazon S3,从物理存储层面打通了数据湖与数据仓库。

image.png

目前,全球数万用户都在使用Amazon Redshift分析数据库进行数据分析,这些用户来自游戏、金融、医疗、消费、互联网等。

在十多年发展历程中,Redshift一直在持续迭代,很多功能和特性都源于企业的真实业务需求。

具体而言,客户数仓场景主要包括四大块:

第一,常规业务运营与BI分析;第二,实时数仓分析;第三,查询、报表与数据分析;第四,机器学习与分析预测。

可以说,企业要想快速构建数据流水线,Amazon Redshift是底层基础设置的重要支撑。

而凭借Amazon Redshift与其他数据分析应用的无缝集成,用户可以获得更完美的数据分析体验。

比如:可以实现高性能格式存储数据,以更经济有效的方式将存储扩展到千兆字节,可实现存储和计算的分离,并且可以实现分析和机器学习引擎的选择等等。

早在2017年,Redshift就已经实现湖和仓的融合,Redshift Spectrum可以直接查询在S3上开放格式的数据,当然也可以将数据写入到湖中,实现了数据仓库和数据湖的数据无缝流转。

2022年,是Redshift推出正式满10周年。在这特别的一年,亚马逊云科技在年度大会上却一反常态,没有发布重大升级更新。

取而代之的是,在会中推出许多新功能,都是和Redshift相关,从更紧密资料集成、流媒体资料分析到强化安全访问,力求要把Redshift打造成企业资料集散地,来符合各种现代化应用的使用,以及能汇集整理各种类型资料,提供AI分析和后续应用,更要让这个能够通吃各种资料类型的新一代数据仓库架构,成为加速企业资料现代化的关键产品。

总体而言,作为亚马逊云科技的基石技术,Amazon S3不断为其技术创新提供源源不断的养分。而“智能湖仓”以Amazon S3为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Spectrum等工具,实现数据湖的构建、数据的移动和管理等。

“智能湖仓”架构可以被视为一个“枢纽”,将亚马逊云科技的数据服务无缝集成,打通数据湖和数据仓库之间数据移动和访问,并且进一步实现数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户各种实际业务场景下的不同需求。

任何阶段的企业都可以从这种敏捷的架构中快速获益,轻松打破数据及技能孤岛,并以迭代及增量的方式获得数据分析的敏捷性,缩短企业提取数据价值的创新周期。

image.png

这一架构充分利用了云服务带来的安全可靠、极致性能、无限扩展等优势,能够帮助企业消除数据孤岛,打造统一的数据基础底座,打通从数据获取到数据应用的完整流程,并让企业在云中实现数据与智能的深度融合,从而充分发挥数据价值。

如今,亚马逊云科技已助力150万客户成为数据驱动型企业。

以供应链的数字化升级为例,顺丰利用亚马逊云科技可大规模扩展的对象存储服务Amazon S3构建数据湖,将园区内大量的前端感知设备,包括摄像头、物联网IoT设备、地磁、多模达等收集的信息汇总到数据湖中。

依托Amazon S3云对象存储近乎无限的存储能力,为数据驱动运营提供坚实的数据基础。

通过使用亚马逊云科技计算、存储、数据分析、容器、机器学习和安全等服务,顺丰供应链改进了园区运营流程,提升了运营效率,园区车辆日吞吐量提升40%-60%,员工作业效率提升30%,调度员和安检员工作量减少50%。

亚马逊云科技的另一个客户纳斯达克也通过Amazon S3为数据管理赋能。

由于自动化交易平台涌入市场,交易速度和交易量持续增长,2014年,纳斯达克为了扩大规模、提高性能并降低运营成本,从旧式本地部署数据仓库迁移到由Amazon Redshift集群赋能的数据仓库。随着时间推移,越来越多的交易导致数据大量增加,同时,纳斯达克开始规划开发新架构以持续实现生态系统期望的性能标准和卓越运营。

2018年,纳斯达克选择在Amazon S3上构建新的数据湖,这使该公司能够将计算和存储分开,并独立扩展每项功能。纳斯达克通过集成亚马逊云科技IAM策略、Amazon S3,还可在多个亚马逊云科技账户间提供全面的访问控制功能。此外,纳斯达克使用Amazon S3来存储关键的金融数据,并将其移至Amazon S3 Glacier,从而能够以较低的成本进行归档。

2019年1月,纳斯达克参加了亚马逊云科技的Data Lab,在为期四天的实验中,纳斯达克使用Amazon Redshift作为计算层,重新设计了其提供分析的方式。因此,纳斯达克开始使用Amazon Redshift Spectrum,这是一项赋能智能湖仓架构的功能,可以直接查询数据仓库和Amazon S3数据湖中的数据。

如此一来,洞察生成时间缩至最短,赋能斯达克经济研究团队可以进行数据分析,并对数据运行复杂的查询。起初是以性能为重点的解决方案,现在变成了团队间共享的多用途数据湖。

借助基于Amazon S3和Amazon Redshift的新型智能湖仓架构,纳斯达克每天能够处理的记录数量轻松地从300亿条跃升至700亿条,并且较之前提前5小时达到90%的数据加载完成率。此外,通过优化其数据仓库,纳斯达克运行Amazon Redshift查询的速度加快了32%。

鉴于良好的系统体验,纳斯达克于2022年已成功将其六大美国期权交易市场之一纳斯达克MRX的核心交易系统迁移至亚马逊云科技。此次成功迁移标志着纳斯达克为全球资本市场构建下一代技术基础设施之旅中一个重要的里程碑。

无论是在数据基础架构、统一分析还是业务创新上,从连接数据湖和数据仓库到跨数据库、跨域共享,如今亚马逊云科技“智能湖仓”架构在企业中的实践,已经为企业构建现代化数据平台提供了一条可供遵循的路径,其将协同Amazon S3与Amazon Redshift等更多技术和产品,进一步推进底层数据架构的现代化演进,为企业乃至全行业带来更大的价值。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
6天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
1月前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
216 5
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
1月前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
51 2
|
2月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
135 1
|
1月前
|
缓存 监控 大数据
构建高可用AnalyticDB集群:最佳实践
【10月更文挑战第25天】在大数据时代,数据仓库和分析平台的高可用性变得尤为重要。作为阿里巴巴推出的一款完全托管的PB级实时数据仓库服务,AnalyticDB(ADB)凭借其高性能、易扩展和高可用的特点,成为众多企业的首选。本文将从我个人的角度出发,分享如何构建和维护高可用性的AnalyticDB集群,确保系统在各种情况下都能稳定运行。
35 0
|
5月前
|
SQL 关系型数据库 MySQL
如何在Dataphin中构建Flink+Paimon流式湖仓方案
当前大数据处理工业界非常重要的一个大趋势是一体化,尤其是湖仓一体架构。与过去分散的数据仓库和数据湖不同,湖仓一体架构通过将数据存储和处理融为一体,不仅提升了数据访问速度和处理效率,还简化了数据管理流程,降低了资源成本。企业可以更轻松地实现数据治理和分析,从而快速决策。paimon是国内开源的,也是最年轻的成员。 本文主要演示如何在 Dataphin 产品中构建 Flink+Paimon 的流式湖仓方案。
7855 10
如何在Dataphin中构建Flink+Paimon流式湖仓方案
|
4月前
|
SQL DataWorks 数据库连接
实时数仓 Hologres操作报错合集之如何将物理表数据写入临时表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4月前
|
DataWorks 负载均衡 Serverless
实时数仓 Hologres产品使用合集之如何导入大量数据
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
4月前
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
64 1
|
4月前
|
SQL 分布式计算 关系型数据库
实时数仓 Hologres操作报错合集之指定主键更新模式报错主键数据重复,该如何处理
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

热门文章

最新文章