数智时代新基石,贾扬清重磅发布新一代云原生数据仓库与数据湖

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 6月9日, 在2020阿里云峰会上,阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构,新一代云原生数据仓库可支持PB级数据关联分析和实时查询,实现离线、实时、分析、服务的四位一体。同时推出的数据湖解决方案,采用一种存储多种计算理念,基于存储与计算分离架构和全新大数据分析加速引擎,可实现与本地计算一样的快速体验,激发企业数智动能。

6月9日, 在2020阿里云峰会上,阿里巴巴副总裁、阿里云计算平台事业部高级研究员贾扬清宣布推出新一代云原生数据仓库和数据湖解决方案。基于创新的技术架构,新一代云原生数据仓库可支持PB级数据关联分析和实时查询,实现离线、实时、分析、服务的四位一体。同时推出的数据湖解决方案,采用一种存储多种计算理念,基于存储与计算分离架构和全新大数据分析加速引擎,可实现与本地计算一样的快速体验,激发企业数智动能。
image.png

以下为贾扬清演讲全文[(附视频回顾>>)](https://summit.aliyun.com/events?liveId=2923image.png


如今我们谈到产业数字化,数字产业化,今天绝大多数的经济活动、数据的沉淀分析和服务都是离不开的。同时我们又说摸着石头过河,绝大多数的企业在业务升级跟技术升级的过程当中,往往都采取一个摸着石头过河的方法,在遇到不同的数据分析跟服务的需求的时候,寻找单个单点的系统来解决它实际的单点的问题。这样的一个过程就会遇到最后的一个问题,是在一个看似完整的系统背后,是一个一个的数据的孤岛,这些孤岛之间数据的联通,数据的实时传输都变成了非常大的问题。
image.png
从一个整个企业的角度来说,业务所看到的是数据洞察的困难,而系统看到的是数据分裂的成本,作为企业业务如此重要的数据仓库的概念,我觉得我们需要顶层的设计来重构数据仓库,这是我们今天向大家展示的基于HologresMaxComputeRealtime Compute离线、实时、分析、服务一体化的,实时即服务的一个理念。如果我们回到数据仓库最本质的需求的话,其实它的本质问题并不复杂。数据仓库需要把多个来源的数据综合在一起,实时地沉淀到一套存储上去,同时在上面做多种形态的,无论是离线、实时还是交互式的分析,以及做结果的展示和服务。我们以前经常听到的一个概念叫HTAP(Hybrid Transaction and Analytical Process),事物跟分析的一体化,对于事物来说,它更多的是在考察一个数据的单位,比如说一个数据库,对于读写性能和安全性这样的一些指标。但是今天我们所看到的是,分析跟服务是更加一体的。分析,是说我们要把这样海量的数据当中的规律分析洞察出来,那么同时这些洞察的最终目的是为了服务,无论是数据大屏还是运营分析,它都是一个展示服务数据的一个过程。要解决数据孤岛的问题,我们就要把分析的形态跟服务的形态更紧的结合起来。我们把这样的一种模式叫HSAP(Hybrid Serving Analytical Processing),基于Hologres跟MaxCompute这样的一个数仓,我们可以实现Hologres跟MaxCompute数据的打通,通过Hologres来实现高性能、低延时的分析,同时通过MaxCompute来实现大规模、低成本的离线计算。在这样的一个基础上面,我们可以实时的将这些数据分析的结果以及实时沉淀的数据,推送到不同的像大屏和运营看板这样的一些服务上去。

image.png

在阿里巴巴集团内,对于数据最大的一个需求可能是在双11这一天,它有了大量的数据流转,也有着非常复杂的业务决策。在2019年的时候,我们通过Hologres跟MaxCompute这样的一个数仓,给我们支持业务的系统做了一次升级。在双11当天的时候,我们这一套系统支持了总共1.45亿次的在线查询,这些查询再往上所支持的是非常复杂的业务的分析和决策的一个过程。这些分析的背后同时又是带有着1.3亿条实时记录写入的一个大规模的数据体量。顶层设计走对了之后,性能其实并不是问题。基于MaxCompute、RealtimeCompute和Hologres,这样的一整套数仓体系可以解决我们数据孤岛的问题。在没有数据冗余的这样一个情况下面,来简化系统,降低成本,同时来提升我们数据分析的效率。我们也考虑到在建设一个数仓的时候,开源、社区和生态是很重要的,所以我们在建设Hologres的时候,采取了基于PostgreSQL这样的一个完全兼容开源的生态体系。数据工程师和上层的BI工具,可以更加容易地、无缝地把自己现有的系统接入到Hologres和MaxCompute,实现分析和服务的一个无缝迁移。
image.png

实时即服务,基于HSAP这样的一个理念,我们可以大大的简化数仓的设计,真正的实现在数据全生命周期当中离线、实时、分析、服务一体化的一个系统。

在企业上云的过程当中,我们还看到另外一个需求,就是海量的异构数据,这些数据可能是日志,可能是图片、视频、语音也有可能是在之前经营过程当中沉淀下来的大量的数据形态。这些数据和数仓所解决的结构化数据的问题是不太一致的,他们变得更加的多样,更加的非结构化,但是同时他们也有和结构化数据一样的需求:海量、高速、安全、智能以及无缝上云。基于这样的一个需求,已经有1000多家企业在我们阿里云OSS对象存储这样的一个通用存储的解决方案上面,来构建一体化的数据湖解决方案。数据湖可以给大家解决两个问题。第一个问题是解决多种形态的数据的无缝接入、聚合的一个问题,他可以把多样的数据都放在同一套存储上面,同时在这套存储上面,它可以更快地对接多种自建和托管的引擎,来实现不同的分析服务的业务的创新,无论是搜索推荐、机器学习,还是其他各种多种多样的服务形态。
image.png

今天我们在这里重磅发布新一代云原生的数据仓库和数据湖的解决方案,背后的理念是从数据孤岛到一种存储,多种计算、实时即服务这样的一个系统设计。在阿里云上面我们还有数据的综合治理DataWorks机器学习PAI这样的平台,通过这一整套的数据产品,我们可以实现应用的数据化和智能化。我们认为未来每一家企业都应该在云上建设数据仓库和数据湖,解决纷繁复杂的数据问题。

本次峰会Hologres商业版首发,指定规格首月三折!立即体验>>
了解更多峰会大数据&AI详情请点击:https://www.aliyun.com/activity/bigdata/2020live

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
17天前
|
存储 数据采集 Cloud Native
极速数仓ClickHouse步入云原生新纪元
极速数仓ClickHouse步入云原生新纪元,由ClickHouse核心研发团队技术总监王鹏程及长桥航行服务架构负责人刘文全主讲。内容涵盖ClickHouse的优势与应用场景、架构解析、最佳实践及未来展望。特别介绍了ClickHouse Enterprise版本在阿里云上的优化与创新,支持实时查询、高性能资源利用和丰富的SQL扩展。长桥证券分享了其基于阿里云ClickHouse构建行情服务的实践经验,展示了如何通过ClickHouse实现高效的数据存储与处理,显著降低存储成本并提升写入性能。
|
4月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
298 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
存储 Cloud Native 大数据
实时分析、融合统一及云原生,现代化数据仓库未来发展必经之路|专访飞轮科技 CEO 马如悦
Apache Doris 历经近十年的发展,为何还能持续保持竞争力和活力?其背后的核心推动力又是什么?
|
人工智能 分布式计算 Cloud Native
《阿里云云原生一体化数仓新能力解读》电子书重磅来袭!六大能力,助力企业构建全托管的现代化数仓!
离线实时一体、分析服务一体、湖仓一体、数据安全、数据建模、数据治理,六大热门主题,六位大数据专家,带你了解当前炙手可热的云数仓产品最新演进趋势。
1776 0
《阿里云云原生一体化数仓新能力解读》电子书重磅来袭!六大能力,助力企业构建全托管的现代化数仓!
|
Cloud Native 架构师
阿里云【数智创新行(北京站)——云原生企业级数据湖专场】报名火热进行中
阿里云【数智创新行(北京站)——云原生企业级数据湖专场】报名火热进行中
569 0
阿里云【数智创新行(北京站)——云原生企业级数据湖专场】报名火热进行中
|
存储 机器学习/深度学习 SQL
湖仓一体:大数据平台的下一代架构-贾扬清|学习笔记
快速学习湖仓一体:大数据平台的下一代架构-贾扬清。
450 0
|
分布式计算 DataWorks Cloud Native
2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读
为培育专业化、场景化的大数据解决方案,构建多层次的工业互联网平台、建设行业的大数据平台,阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres,提出云原生一体化数仓,为企业提供一站式大数据处理平台。
710 0
2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读
|
存储 人工智能 运维
贾扬清:云原生让数据湖加速迈入3.0时代
摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生让数据湖加速迈入3.0时代》的分享。
贾扬清:云原生让数据湖加速迈入3.0时代
|
存储 运维 监控
如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
随着开源技术与云原生的高度融合,阿里云开源大数据平台在功能性、易用性、安全性上积累了丰富的实践经验,已成功服务数千家企业,助力其聚焦自身核心业务优势,缩短开发周期、简化运维难度,拓展更多业务创新。10月29日,阿里云发布“如何构建云原生的开源大数据平台”解决方案,邀请到了来自阿里云、微淼、Inmobi的技术专家为大家现身说法,呈现上云实践。
如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
|
存储 Cloud Native 关系型数据库
云原生数据仓库下的“降本增效”之路怎么走?
智能建模诊断与优化是AnalyticDB继智能数据查询诊断与优化后,推出的又一个智能诊断系列,本次发布的冷热数据分层智能推荐和无效索引删除智能推荐2个功能,主要是从低频使用的热表转冷表减少热存空间,删除无效索引维度减少存储空间,最终降低存储成本。后续还将发布分布键智能推荐功能帮助客户通过优化分布键,提供Join/GroupBy等场景的查询性能。
395 0
云原生数据仓库下的“降本增效”之路怎么走?