云原生离线实时一体化数仓建设与实践

简介: 本篇内容分享了云原生离线实时一体化数仓建设与实践。分享人:刘一鸣 Hologres 产品经理

视频链接:https://developer.aliyun.com/adc/series/yunqiinternet/lookback8?spm=a2c6h.25893875.J_2523936200.2.2ff43919WXR1ts

正文:
本篇内容将通过五个部分来介绍云原生离线实时一体化数仓建设与实践。
一、离线实时一体化数仓建设难点
二、离线实时一体化数仓技术演化
三、阿里巴巴离线实时一体化数仓建设实践
四、离线实时一体化数仓参考架构
五、未来实时数仓核心趋势展望

image.png

一、离线实时一体化数仓建设难点
随着时代的发展,数据分析由通过实时大屏洞察业务变化,逐步转向数据决策和数据在线转化。实时数据的精细化运营,让每个人对数据需求,出现了指数级增长。另一方面,数据在线推荐,风控系统也严重依赖于实时数据,数据分析的力度和强度有着显著地提升。
image.png

面对蓬勃发展的数据需求,我们的数据架构也变得越来越复杂。无论是订单数据,还是行为数据,它们都通过消息中间件采集,然后经过多条加工链路。一份数据经过离线,实时,在线之后,会产生多份数据集。这套架构让运维成本,开发成本变得很高。
image.png

整个架构高成本的背后是因为有多套组件和多套存储。而多套存储带来了多份数据孤岛,导致数据的一致性无法保障。每个系统都有自己的运维方式,开发方式和使用方式。从而增加了运维成本和学习成本。
image.png

当我们回顾计算机行业的发展。在60年代,每个程序员在开发系统时,都需要自己通过离散文件,网络文件或层级文件存储状态。在80年代,大家可以通过描述的方式分析数据。到了大数据时代,数据的存储方式多种多样,同样一份数据在各个引擎里有不同的选型。虽然不同的技术在可扩展性,并行能力,吞吐能力上有所不同。但至今为止,我们分析问题的方式并发生没有本质变化。所以我相信随着数据技术的进步,数据存储还会有一个融合的过程。
image.png

我认为数仓平台的时效性有两个概念,即实时和准时。其中,只有机器做决策的场景需要实时。比如端到端数据产生和延迟,大屏风控,计算延迟,事件驱动等等。而人类做决策的时间,一般以分钟/小时/天/月为准,极度新鲜的数据并不影响人类决策的本质。只有改变决策结果的系统,才是优秀的实时系统。比如海量数据的灵活分析,自助分析等等。
image.png

大家有的时候为了数据的时效性,往往会忽视数据的质量。如果一个数仓平台只追求时效性,我们只能看到一个结果值。不但很难发现数据的质量问题,二修正成本也很高。所以一个优秀的实时数仓平台,其数据一定要可检查,可修正。
image.png

数仓平台实时化的第三个需求就是降低成本。这里主要分为开发成本,运维成本和人力成本。其中,最核心的是开发成本。我们不但要让业务与技术解耦,实现数据资产复用,业务自助开发。还要简化链路,减少依赖和传递。在运维方面,组件不但要具备很好的弹性能力,还要有托管服务,从而降低运维成本。在人力成本方面,我们要降低技术门槛和学习成本。
image.png

综上所述,一个优秀的实时数仓需要具备四个能力。第一,支持实时写入、实时事件计算、实时分析,并且满足实时和准时的需求、第二,将实时和离线融合。减少数据冗余和移动,具有简化数据,修正数据的能力。第三,实现业务与技术解耦。支持自助式分析和敏捷分析。第四,拥抱标准,拥抱生态,拥抱云原生。降低运维成本、迁移成本,SQL优先。
image.png

二、离线实时一体化数仓技术演化
接下来,我们看看离线实时一体化数仓的发展。如上图所示,阿里巴巴的第一代实时数仓,主要面向特定业务,做烟囱式开发。我们用典型的Lambda架构,实行采集,加工,服务的三步走策略。根据特定业务,进行烟囱化的建设。以任务为单位支撑应用场景,当数据预处理之后,存储到OLAP和KV引擎。但随着业务场景越来越复杂,运维开发成本越来越高。烟囱式的开发方式,已经不能适应业务变化。
image.png

于是我们有了第二代实时数仓,面向指标复用,进行数仓开发。我们引入了OLAP引擎,将小数据量明细存储在MPP数据库,支持OLAP Query。然后在DWD层,按照主题将数据源整合,构建可复用的DWS层,减少建设的烟囱化。与此同时,不同的任务和引擎中,仍沉淀了烟囱化的业务逻辑。由于不同业务的SLA不同,KV引擎和OLAP根据SLA,拆分了多个实例,导致数据运维成本和开发成本增加。与此同时,KV Schema Free的元数据管理也尤为困难。
image.png

为了解决上述问题,我们研发了第三代实时数仓,即面向统一数据服务的一站式开发。在第三代实时数仓中,我们将公共明细层和汇总层,应用明细层和汇总层,集中存储,统一管理。其次,我们将OLAP、KeyValue统一为SQL接口。然后,简化实时链路和加工链路,让数据可修正,减少外部系统的依赖。通过一站式开发,我们不但实现了数据的秒级响应,让全链路状态可见,而且整个架构的组件更少,依赖更少。有效降低了运维成本和人工成本。
image.png

三、阿里巴巴离线实时一体化数仓建设实践
接下来,我们讲一讲阿里巴巴离线实时一体化数仓建设的实践。2020年阿里巴巴双十一大屏,峰值处理消息40亿条/秒,全天处理150万亿条,GMV 3秒以内,全天延迟1~2秒。这些数据主要来自两个渠道。第一,结构化的订单数据。第二,用户点击时,产生的点击流数据。数据收集汇总之后,一部分数据进入实时加工链路,进入Flink。另一部分数据以归档的方式,进入离线数仓。离线系统以MaxCompute为主,在线系统以Hologres为主。
image.png

因为MaxComput是一项大数据计算服务。它能提供灵活快速、完全托管、高性能、低成本、安全的PB级数据仓库解决方案。所以当数据集成之后,数据进入Date Works平台,通过MaxComput,对数据进行深度分析,报表分析。MaxComput不但简单易用,拥有极致的弹性能力,而且拥有企业级的安全能力,充分保障企业的数据安全。
image.png

上图是阿里云的重要组件DateWorks。DateWorks由很多组件组成,其中包括数据治理,数据开发,数据调度,元数据管理等模块。DateWorks集成了阿里云不同的引擎,提供了优秀的元数据管理能力和企业及治理能力。
image.png

我通常将存储分为三类。第一类Transaction在线的事务系统。适合模型简单的分析场景,以TP模型解决AP的问题。第二类Analytics系统,这个系统的往往采用分布式,列存,索引。通各种压缩技巧,把海量数据分析做到极致。第三类是Serving系统,这类系统能毫秒级的响应,每秒支持上万的qps,以只读为主,更新简单。
image.png

HSAP以数仓模型解决了数据服务的问题。HSAP主要应用在数据报告,数据看版,在线应用。能够统一数据存储,统一进行数据服务。除此之外,HSAP支持离线数据的批量导入,实时数据的实时更新。
image.png

上图是一站式实时数仓的演进。无论是交互式分析,联邦查询,还是在线的高性能点查都可以减少数据的传递和依赖。数据离线加工的部分,我们继续使用MaxCompute。数据实时加工的部分使用Flink。避免数据割裂,赋能数据服务,简化运维管理。
image.png

阿里云的Hologres为分析服务一体化,设计的实时数仓。在云原生方面,与MaxCompute底层打通,透明加速,实时离线一体。在流批一体的存储方面,高吞吐数据写入,支持更新,写入即可见。在性能方面,随着CPU的多核化,我们对向量化、全异步等执行引擎优化,充分利用计算资源。
image.png

我们在阿里客户体验系统CCO的实时数仓改造中,对交易、咨询、退款等数据整合,解决了风险运营、智能排班、售前转询、现场调度等需求。做到了架构简化可靠,无数据孤岛,支持联邦查询,全流程秒级延迟。不但减少了数据同步,避免了数据延迟和数据库抖动。而且满足了双11流量10倍的增长需求。
image.png

上图反映的是,阿里客户体验系统CCO过去三年,实时加工任务的发展。连续三年,成本100%的增长,导致运维压力大,成本消耗大。经过研究CCO的技术架构,我们发现实时任务有烟囱化的遗留问题。首先,KV引擎与OLAP引擎不通,没有统一的存储。其次,公共层任务链路过长,不同实例间的数据同步,作业发生了膨胀,导致维护成本越来越高。
image.png

为了解决以上问题,我们用了Hologres技术机构,与Flink和DataWorks数据地图集成。实现了高性能写入,让元数据集成DataWorks数据地图。构建了高可靠的场景HA,实现了行列混存和资源隔离。
image.png

通过DataHub+Flink+Hologres+MaxCompute的技术架构,CCO的整体硬件资源成本下降30%,实时写入支持行存千万/秒,列存几十万/秒写入要求。在2020双11当天,查询latency平均142ms,99.99%的查询在200ms以内。除此之外,还能够支撑200+实时数据大屏搭建,为近300+小二提供稳定的数据查询服务。
image.png

四、离线实时一体化数仓参考架构
云原生的实时数仓主要分为加工层的和存储层。加工层以Flink加工为主。存储层有Hologres系统。数据的处理方式只要有三种。第一,即席查询方式;第二,准实时方式;第三,增量方式。通过这三种方式,满足了绝大多数场景的处理需求。
image.png

实时数仓的数据分析,主要应用在可视化大屏、Web应用API、BI报表系统、实时数据接口服务等等。首先,将业务系统的结构化数据,采集到实时数据缓存平台。初步分类之后,增量数据进DataHub;明细全量数据进Hologres。然后进行数据集成,Flink加工增量数据,实时更新明细数据。
image.png

然后离线任务加工结果表,由MaxCompute导入,在CDM/ADS层表为实际物理表,任务由DataWorks统一调度。最后,前端实时请求,数据实时性依赖,全部由DataWorks调度周期配置。
image.png

增量数据的实时统计,只要通过增量流,增量流join静态维,增量流join增量流,这3种场景,就能统计出数据。然后通过Flink计算、datahub进行数据存储。而ADS层的应用数据存储在Hologres。逻辑简单,实时性强。
image.png

该怎么选择MaxCompute和Hologres?这两个技术的技术原理是完全不同。MaxCompute有典型的做数据加工场景,计算过程是异步的,资源按需分配。扩展性几乎不受限制,接口标准是MC SQL。Hologres的所有任务都是同步的,复杂查询尽量避免跨多节点数据shuffle,基于Pangu,利用SSD做缓存加速,成本相对高。接口标准是PostgreSQL。
image.png

数仓开发应逐步实现减少层次,不断复用的目标。减少数据层次,敏捷适应需求变化,弱化ADS、面向DWS、DWD的应用开发。MaxCompute与Hologres底层互通,互读互写,无需外部同步工具,数据传递效率比其他软件高10倍以上。
image.png

数据开发不是一蹴而就,一定要分阶段进行。大家一定要在不同阶段,使用不同的加工方式。第一阶段,一定以获取数据为主。短平快地支撑,理解业务和数据。
第二阶段,要满足在线快速业务上线。丰富公共层明细数据,确定产品框架。
到第三阶段的成熟层时,才开始规划不同的组织架构。整个系统趋于稳定,需求成体系。与业务密切合作常态化。公共汇总层开始沉淀。
image.png

五、未来实时数仓核心趋势展望
我觉得在未来,实时数仓的核心趋势是一站式的数据平台,敏捷化的数据开发,在线化的数据服务。
image.png

一站式的实时数仓,一个系统能同时解决,OLAP分析与线上服务两个问题。一定要满足业务敏捷响应,数据自助分析,避免数据孤岛,赋能数据服务,简化运维管理。
image.png

数据服务仅是内部系统,而且要成为外部的在线系统。不但能支撑数据决策,而且要提效在线转化。最终实现数据平台的高可用,高并发。数据的低延时/低抖动,安全可靠。
image.png

最后,数据开发敏捷化。在未来,希望通过技术创新,通过空云原生的弹性能力,减少人类的瓶颈。以公共层对外提供服务,将查询灵活度从数仓工程师转移到业务分析师,让卓越计算力解决人力瓶颈。

阿里云大数据是为业务敏捷而生的简单、易用、全托管的云原生大数据服务。激活数据生产力,分析产生业务价值。详情访问:https://www.aliyun.com/product/bigdata/apsarabigdata

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
3天前
|
运维 Cloud Native 持续交付
构建未来:云原生架构的演变与实践
【5月更文挑战第17天】 在数字化转型的浪潮中,企业正迅速采用云原生技术来构建和部署应用程序。本文将深入探讨云原生架构的核心概念、发展历程以及如何在现代IT环境中实现敏捷、可扩展和高效的服务。通过对容器化、微服务、持续集成和持续部署(CI/CD)等关键技术的分析,我们将揭示如何利用云原生方法论来优化资源利用、加快产品上市速度,并提高系统的可靠性。
13 3
|
5天前
|
Kubernetes Cloud Native 持续交付
构建高效稳定的云原生应用:容器编排与微服务治理实践
【5月更文挑战第14天】 随着企业数字化转型的深入,云原生技术以其弹性、敏捷和可扩展的特性成为现代应用开发的首选模式。本文将探讨如何通过容器编排工具如Kubernetes以及微服务架构的有效治理,构建和维护高效且稳定的云原生应用。我们将分析容器化技术的优势,并结合案例讨论在多云环境下实现持续集成、持续部署(CI/CD)的最佳实践,同时解决微服务带来的分布式复杂性问题。通过本文的阐述,读者将获得一套提升系统可靠性和业务连续性的策略框架。
7 0
|
5天前
|
机器学习/深度学习 Cloud Native 持续交付
构建高效机器学习模型的策略与实践构建未来:云原生技术在企业数字化转型中的关键作用
【4月更文挑战第30天】 在机器学习领域,构建一个高效的模型不仅需要深厚的理论基础,还需结合先进的技术手段和策略。本文将探讨一系列提升模型性能的方法,包括数据预处理、特征选择、模型调参以及集成学习等。通过具体案例分析,揭示这些方法如何在实际问题中得以应用,并讨论它们对模型性能的影响。文中还将涉及最新的研究进展,为读者提供前瞻性的指导意义。 【4月更文挑战第30天】随着企业加速其数字化转型之旅,云原生技术已成为推动创新和灵活性的核心。本文深入探讨了云原生架构的原则,包括微服务、容器化、持续集成/持续部署(CI/CD)、以及声明式APIs。分析了这些技术如何共同促进可伸缩性、敏捷性和容错性,同时
|
5天前
|
Kubernetes 监控 Cloud Native
构建未来:云原生架构的演进与实践
【4月更文挑战第30天】 随着数字化转型的不断深入,企业对IT基础设施的要求日益提高。云原生技术以其独特的弹性、可扩展性和敏捷性成为推动现代应用开发的关键动力。本文将探讨云原生架构的核心组件、实施策略以及面临的挑战,旨在为读者提供一个关于如何有效构建和部署云原生应用的全面视角。
|
5天前
|
Cloud Native Devops 持续交付
构建未来应用:云原生架构在现代企业中的实践与挑战
【4月更文挑战第29天】 随着数字化转型的加速,企业正迅速转向云计算以支撑其业务敏捷性和创新。云原生技术,作为推动这一转型的关键因素,正在重新定义软件开发和运维模式。本文将深入探讨云原生架构的核心组件,包括容器化、微服务、持续集成/持续部署(CI/CD)以及DevOps文化,并分析这些技术如何帮助企业实现弹性、可扩展和高效的应用部署。同时,我们将讨论在采纳云原生实践中所面临的挑战,包括安全性、治理和人才缺口等问题。
|
5天前
|
运维 Cloud Native Devops
构建未来应用:云原生架构的演进与实践
【4月更文挑战第29天】在数字化转型的浪潮中,企业亟需灵活、高效的技术支撑来应对市场的快速变化。云原生架构以其独特的设计理念和技术栈,成为推动这一变革的关键力量。本文深入探讨了云原生的核心概念、关键技术和实施策略,旨在为企业提供一个清晰的云原生转型蓝图,助力其构建更加动态、可扩展的应用系统。
|
5天前
|
Kubernetes Cloud Native 持续交付
构建未来:云原生架构在现代企业中的应用与实践
【4月更文挑战第29天】 随着数字化转型的浪潮席卷各行各业,企业对于信息技术基础设施的要求日益提高。传统的IT架构已难以满足快速迭代、灵活扩展和持续创新的需求。本文聚焦于云原生架构,一种为云计算环境量身打造的设计理念和技术集合,旨在帮助企业构建更加灵活、可靠和高效的系统。通过对云原生核心组件的解析、实施策略的探讨以及成功案例的分析,我们揭示了云原生架构如何助力企业在竞争激烈的市场中保持领先地位。
|
5天前
|
消息中间件 Cloud Native 开发者
电子好书发您分享《阿里云云原生开源开发者沙龙北京站 PPT 合集 》
**阿里云开源沙龙PPT合集:北京站聚焦云原生技术** 探索云原生领域的深度与广度,[阿里云](https://developer.aliyun.com/ebook/8334/116563?spm=a2c6h.26392459.ebook-detail.5.da096cf6t38G15)分享了北京开发者沙龙的精彩内容,涵盖微服务、消息队列等主题,助力开发者洞悉行业趋势。![image](https://ucc.alicdn.com/pic/developer-ecology/cok6a6su42rzm_67b12f6cad6e4b2786859b3a668b3351.png)
48 3
|
5天前
|
人工智能 监控 Cloud Native
iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报
iLogtail 2.0 来了;通义灵码下载量破百万丨阿里云云原生 2 月产品月报
|
5天前
|
Cloud Native Serverless 开发者
阿里云助力开发者创新:探索云原生技术的新境界
阿里云开发者社区推动云原生技术发展,提供丰富产品(如容器服务、Serverless、微服务架构、服务网格)与学习平台,助力企业数字化转型。开发者在此探索实践,共享资源,参与技术活动,共同创新,共创云原生技术新篇章。一起加入,开启精彩旅程!
288 2

热门文章

最新文章