百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解(二)

简介: 百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解(二)

4、联机分析处理


联机分析处理又被称为 OLAP ,其允许使用多维数据集的结构,访问业务数据源进行清洗、转换、加载经过聚合后得到的聚合数据。


OLAP 是一种快速的多维分析查询的方法,DM 数据挖掘是一种发现数据内部规律的知识发现的技术,BI 商务智能侧重于将数据报表可视化。        


通过使用OLAP工具,用户可以从多个视角交互式地查询多维数据 OLAP 由三个基本的分析操作构成:合并(上 卷)、下钻和切片。        


合并是指数据的聚合,即数据可以在一个或多个维度上进行累积和计算。例如,所有的营业部数据被上卷到销售部门以分析销售趋势。        


下钻是一种由汇总数据向下测览细节数据的技术。比如用户可以从产品分类的销售数据下钻查看单个产品的销 售情况。


切片则是这样种特性,通过它用户可以获取OLAP立方体中的特定数据集合,并从不同的视角观察这些数据。这 些观察数据的视角就是我们所说的维度。例如通过经销商、日期、客产品或区域等,查看同一销售事实。


OLAP系统的核心是OLAP立方体,或称为多维立方体或超立方体。它由被称为度量的数值事实组成,这些度量被维度划分归类。


分类    


通常将联机分析处理系统分为 ROLAP、 MOLAP 、HOLAP三种类型,其中MOLAP是一种典型的OLAP形式,默认的 OLAP  就是 MOLAP这种类型,其将数据存储在一个经过优化的多维数组中,而不是存储在关系数据库中。比如说预先计算并存 储计算后的数据这种操作叫做数据的预处理,将预计算后的数据集合作为一个数据立方体 CUBE 使用。对于给定范围的 数据都会计算出来,这样在进行查询的时候就能够快速响应。


image.png


ROLAP 直接使用关系数据库存储数据,区别于 MOLAP不需要执行预计算,查询标准的关系数据库表根据过滤条件进行数据的查询聚合操作。基础的事实数据及其维度表作为关系表被存储,而聚合信息存储在新创建的附加表中,能够下钻到更为细节的明细数据。    


ROLAP 以数据库模式设计为基础,操作存储在关系数据库中的数据,实现传统的OLAP数据切片和分块功能。本质上 讲,每种数据切片或分块行为都等同于在SQL语句中增加个 WHERE 子句的过滤条件。 ROLAP不使用预计算的数据立方体 ,取而代之的是查询标准的关系数据库表,返回回答问题所需的数据。    


HOLAP 结合 MOLAP 和 ROLAP 两种联机分析处理方式,吸取了两种模式的优点,既可以用于细粒度的分析,也可以进行较粗粒度的数据分析处理,也支持多维立方体( CUBE )的分析。


20210531235953708.png


大数据联机处理系统处理性能    


OLAP分析一般涉及到的表的数据量级都非常的大,如何高效的进行数据的分析操作是首要考虑的问题,如果不能快速的对海量数据进行计算,那么 OLAP 将没什么意义,在大数据 Hadoop 生态圈中能够进行高效处理的解决方案和组件为 Impala 和 Kylin(麒麟)。


5、实时数据仓库

离线传统企业数据仓库都是 T+1 的数据。    


随着企业业务数据的快速产生以及数据时效性在企业运营中的重要性日益显现,例如一些实时大屏展示,实时报表 ,实时推荐系统,实时物流信息,实时广告推荐效果等。数据的实时获取、实时处理、实时计算和实时展现的能力成为 企业竞争力的重要体现。



image.png


6、实时数仓与离线数仓的对比


从架构上来说,离线数据仓库与实时数据仓库有着较为明显的差别,离线数据仓库主要以传统大数据架构体系进行设计为主,而实时数据仓库主要以 Kappa 架构设计思想为主,介于这两种架构之间有一种中间态就是 Lambda 架构。    


从建设方法角度来说,离线数据仓库和实时数据仓库两者都沿用传统的数据仓库主题建模的理论,将明细数据生成 事实宽表,需要注意维度表也要存放于高速存储或读取的数据库中,比如redis等内存数据库。    


从数据保障看,实时数仓要保证实时性,所以对数据量的变化较为敏感,在上线迎接大数据量流入时,要提前做好 压测和主备保障工作,这是与离线数据的一个较为明显的区别。


二、Kappa 流批一体架构



Kappa 架构的目标就是抛弃掉离线数据处理模块,形成流批统一的架构模型。这种流批统一的架构模型同时会丢掉离线计算更为可靠的特点,完全依赖于消息中间件(比如 kafka)的稳定性和缓存能力。        


为了实现流批处理的一体,flink 1.12 版本真正意义的实现了流批一体的设计架构模式,flink是流式计算框 架,其中的批处理是流处理的一种特殊形式的存在。


image.png


1、Kappa 流批一体架构流程


image.png


2、Kappa 流批一体架构过程的阶段


以消息队列 kafka 作为流处理平台保留永久数据日志的的特性,重新处理实时层中的历史数据,全新的 Kappa 架 构的过程分为以下阶段:    


1.输入数据存储到消息队列中比如 kafka 中,数据保留时间一般需要修改,不能使用默认的7天时间,要设置为指 定的时间区域,比如(365天)或者保留时间区域为无限制,永久。    


实时层计算业务逻辑口径如果发生的变化,需要对消息队列中的所有数据进行重演(重新处理),如何重演 kafka  中的数据呢?


在实际的计算中,只需要将日志偏移量(log offset)设置为 0 即可,作业就会从最早 (earlist) 开 始处理历史数据;在流批一体中,使用 flink 作为实时计算引擎组件,Flink 的流表可以存储上百张粒度为日的数 据,从而保证微批处理足够大可以替换掉离线处理数据。


2. 后端服务层主要从将实时计算引擎得到的结果(结果存储数据库中)获取之后为用户提供查询接口并实现前端 可视化大屏展示,为用户提供查询服务。  


Kappa架构能够将实时和批处理有机的结合到一起,方便运维维护,而且对外提供了一套数据口径和访问接口问题。


相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
5月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
8月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
8月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
1134 0
|
5月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
412 0
|
6月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
501 1
|
8月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
153 1
|
7月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
8月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
358 1
|
6月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
428 14
|
8月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
282 4

热门文章

最新文章