数智时代新基石,贾扬清重磅发布新一代云原生数据仓库与数据湖

简介: 6月9日, 在2020阿里云峰会上,阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构,新一代云原生数据仓库可支持PB级数据关联分析和实时查询,实现离线、实时、分析、服务的四位一体。

6月9日, 在2020阿里云峰会上,阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构,新一代云原生数据仓库可支持PB级数据关联分析和实时查询,实现离线、实时、分析、服务的四位一体。同时推出的数据湖解决方案,采用一种存储多种计算理念,基于存储与计算分离架构和全新大数据分析加速引擎,可实现与本地计算一样的快速体验,激发企业数智动能。
image.png

以下为贾扬清演讲全文[(附视频回顾>>)](https://summit.aliyun.com/events?liveId=2923image.png


如今我们谈到产业数字化,数字产业化,今天绝大多数的经济活动、数据的沉淀分析和服务都是离不开的。同时我们又说摸着石头过河,绝大多数的企业在业务升级跟技术升级的过程当中,往往都采取一个摸着石头过河的方法,在遇到不同的数据分析跟服务的需求的时候,寻找单个单点的系统来解决它实际的单点的问题。这样的一个过程就会遇到最后的一个问题,是在一个看似完整的系统背后,是一个一个的数据的孤岛,这些孤岛之间数据的联通,数据的实时传输都变成了非常大的问题。
image.png
从一个整个企业的角度来说,业务所看到的是数据洞察的困难,而系统看到的是数据分裂的成本,作为企业业务如此重要的数据仓库的概念,我觉得我们需要顶层的设计来重构数据仓库,这是我们今天向大家展示的基于HologresMaxComputeRealtime Compute离线、实时、分析、服务一体化的,实时即服务的一个理念。如果我们回到数据仓库最本质的需求的话,其实它的本质问题并不复杂。数据仓库需要把多个来源的数据综合在一起,实时地沉淀到一套存储上去,同时在上面做多种形态的,无论是离线、实时还是交互式的分析,以及做结果的展示和服务。我们以前经常听到的一个概念叫HTAP(Hybrid Transaction and Analytical Process),事物跟分析的一体化,对于事物来说,它更多的是在考察一个数据的单位,比如说一个数据库,对于读写性能和安全性这样的一些指标。但是今天我们所看到的是,分析跟服务是更加一体的。分析,是说我们要把这样海量的数据当中的规律分析洞察出来,那么同时这些洞察的最终目的是为了服务,无论是数据大屏还是运营分析,它都是一个展示服务数据的一个过程。要解决数据孤岛的问题,我们就要把分析的形态跟服务的形态更紧的结合起来。我们把这样的一种模式叫HSAP(Hybrid Serving Analytical Processing),基于Hologres跟MaxCompute这样的一个数仓,我们可以实现Hologres跟MaxCompute数据的打通,通过Hologres来实现高性能、低延时的分析,同时通过MaxCompute来实现大规模、低成本的离线计算。在这样的一个基础上面,我们可以实时的将这些数据分析的结果以及实时沉淀的数据,推送到不同的像大屏和运营看板这样的一些服务上去。

image.png

在阿里巴巴集团内,对于数据最大的一个需求可能是在双11这一天,它有了大量的数据流转,也有着非常复杂的业务决策。在2019年的时候,我们通过Hologres跟MaxCompute这样的一个数仓,给我们支持业务的系统做了一次升级。在双11当天的时候,我们这一套系统支持了总共1.45亿次的在线查询,这些查询再往上所支持的是非常复杂的业务的分析和决策的一个过程。这些分析的背后同时又是带有着1.3亿条实时记录写入的一个大规模的数据体量。顶层设计走对了之后,性能其实并不是问题。基于MaxCompute、RealtimeCompute和Hologres,这样的一整套数仓体系可以解决我们数据孤岛的问题。在没有数据冗余的这样一个情况下面,来简化系统,降低成本,同时来提升我们数据分析的效率。我们也考虑到在建设一个数仓的时候,开源、社区和生态是很重要的,所以我们在建设Hologres的时候,采取了基于PostgreSQL这样的一个完全兼容开源的生态体系。数据工程师和上层的BI工具,可以更加容易地、无缝地把自己现有的系统接入到Hologres和MaxCompute,实现分析和服务的一个无缝迁移。
image.png

实时即服务,基于HSAP这样的一个理念,我们可以大大的简化数仓的设计,真正的实现在数据全生命周期当中离线、实时、分析、服务一体化的一个系统。

在企业上云的过程当中,我们还看到另外一个需求,就是海量的异构数据,这些数据可能是日志,可能是图片、视频、语音也有可能是在之前经营过程当中沉淀下来的大量的数据形态。这些数据和数仓所解决的结构化数据的问题是不太一致的,他们变得更加的多样,更加的非结构化,但是同时他们也有和结构化数据一样的需求:海量、高速、安全、智能以及无缝上云。基于这样的一个需求,已经有1000多家企业在我们阿里云OSS对象存储这样的一个通用存储的解决方案上面,来构建一体化的数据湖解决方案。数据湖可以给大家解决两个问题。第一个问题是解决多种形态的数据的无缝接入、聚合的一个问题,他可以把多样的数据都放在同一套存储上面,同时在这套存储上面,它可以更快地对接多种自建和托管的引擎,来实现不同的分析服务的业务的创新,无论是搜索推荐、机器学习,还是其他各种多种多样的服务形态。
image.png

今天我们在这里重磅发布新一代云原生的数据仓库和数据湖的解决方案,背后的理念是从数据孤岛到一种存储,多种计算、实时即服务这样的一个系统设计。在阿里云上面我们还有数据的综合治理DataWorks机器学习PAI这样的平台,通过这一整套的数据产品,我们可以实现应用的数据化和智能化。我们认为未来每一家企业都应该在云上建设数据仓库和数据湖,解决纷繁复杂的数据问题。

本次峰会Hologres商业版首发,指定规格首月三折!立即体验>>
了解更多峰会大数据&AI详情请点击:https://www.aliyun.com/activity/bigdata/2020live

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
3月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
3月前
|
存储 机器学习/深度学习 数据采集
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
数据湖与数据仓库各有优劣,湖仓一体架构成为趋势。本文解析二者核心差异、适用场景及治理方案,助你选型落地。
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
|
3月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
4月前
|
存储 传感器 数据管理
数据仓库、数据集市、数据湖、数据海,到底有啥区别?
本文深入解析了“数据仓库、数据集市、数据湖、数据海”的核心区别与应用场景,帮助企业理解不同数据平台的设计理念与适用范围。从支持决策分析的数据仓库,到面向业务部门的数据集市,再到存储多样化数据的数据湖,以及实现跨组织协作的数据海,四者构成企业数据能力由浅入深的发展路径。文章结合实际业务场景,提供选型建议,助力企业在不同发展阶段合理构建数据体系,挖掘数据价值。
数据仓库、数据集市、数据湖、数据海,到底有啥区别?
|
9月前
|
存储 机器学习/深度学习 数据挖掘
数据湖 vs 数据仓库:你家到底该买冰箱还是建个地下室?
数据湖 vs 数据仓库:你家到底该买冰箱还是建个地下室?
1223 17
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
585 5
|
10月前
|
存储 机器学习/深度学习 数据挖掘
数据湖与数据仓库:初学者的指南
数据湖与数据仓库:初学者的指南
761 4
|
11月前
|
存储 分布式计算 大数据
大数据揭秘:从数据湖到数据仓库的全面解析
大数据揭秘:从数据湖到数据仓库的全面解析
347 19
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
297 2
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用

热门文章

最新文章