百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解(二)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 百度、阿里、腾讯平台架构都熟悉,小米大数据平台架构OLAP架构演进是否了解(二)

4、联机分析处理


联机分析处理又被称为 OLAP ,其允许使用多维数据集的结构,访问业务数据源进行清洗、转换、加载经过聚合后得到的聚合数据。


OLAP 是一种快速的多维分析查询的方法,DM 数据挖掘是一种发现数据内部规律的知识发现的技术,BI 商务智能侧重于将数据报表可视化。        


通过使用OLAP工具,用户可以从多个视角交互式地查询多维数据 OLAP 由三个基本的分析操作构成:合并(上 卷)、下钻和切片。        


合并是指数据的聚合,即数据可以在一个或多个维度上进行累积和计算。例如,所有的营业部数据被上卷到销售部门以分析销售趋势。        


下钻是一种由汇总数据向下测览细节数据的技术。比如用户可以从产品分类的销售数据下钻查看单个产品的销 售情况。


切片则是这样种特性,通过它用户可以获取OLAP立方体中的特定数据集合,并从不同的视角观察这些数据。这 些观察数据的视角就是我们所说的维度。例如通过经销商、日期、客产品或区域等,查看同一销售事实。


OLAP系统的核心是OLAP立方体,或称为多维立方体或超立方体。它由被称为度量的数值事实组成,这些度量被维度划分归类。


分类    


通常将联机分析处理系统分为 ROLAP、 MOLAP 、HOLAP三种类型,其中MOLAP是一种典型的OLAP形式,默认的 OLAP  就是 MOLAP这种类型,其将数据存储在一个经过优化的多维数组中,而不是存储在关系数据库中。比如说预先计算并存 储计算后的数据这种操作叫做数据的预处理,将预计算后的数据集合作为一个数据立方体 CUBE 使用。对于给定范围的 数据都会计算出来,这样在进行查询的时候就能够快速响应。


image.png


ROLAP 直接使用关系数据库存储数据,区别于 MOLAP不需要执行预计算,查询标准的关系数据库表根据过滤条件进行数据的查询聚合操作。基础的事实数据及其维度表作为关系表被存储,而聚合信息存储在新创建的附加表中,能够下钻到更为细节的明细数据。    


ROLAP 以数据库模式设计为基础,操作存储在关系数据库中的数据,实现传统的OLAP数据切片和分块功能。本质上 讲,每种数据切片或分块行为都等同于在SQL语句中增加个 WHERE 子句的过滤条件。 ROLAP不使用预计算的数据立方体 ,取而代之的是查询标准的关系数据库表,返回回答问题所需的数据。    


HOLAP 结合 MOLAP 和 ROLAP 两种联机分析处理方式,吸取了两种模式的优点,既可以用于细粒度的分析,也可以进行较粗粒度的数据分析处理,也支持多维立方体( CUBE )的分析。


20210531235953708.png


大数据联机处理系统处理性能    


OLAP分析一般涉及到的表的数据量级都非常的大,如何高效的进行数据的分析操作是首要考虑的问题,如果不能快速的对海量数据进行计算,那么 OLAP 将没什么意义,在大数据 Hadoop 生态圈中能够进行高效处理的解决方案和组件为 Impala 和 Kylin(麒麟)。


5、实时数据仓库

离线传统企业数据仓库都是 T+1 的数据。    


随着企业业务数据的快速产生以及数据时效性在企业运营中的重要性日益显现,例如一些实时大屏展示,实时报表 ,实时推荐系统,实时物流信息,实时广告推荐效果等。数据的实时获取、实时处理、实时计算和实时展现的能力成为 企业竞争力的重要体现。



image.png


6、实时数仓与离线数仓的对比


从架构上来说,离线数据仓库与实时数据仓库有着较为明显的差别,离线数据仓库主要以传统大数据架构体系进行设计为主,而实时数据仓库主要以 Kappa 架构设计思想为主,介于这两种架构之间有一种中间态就是 Lambda 架构。    


从建设方法角度来说,离线数据仓库和实时数据仓库两者都沿用传统的数据仓库主题建模的理论,将明细数据生成 事实宽表,需要注意维度表也要存放于高速存储或读取的数据库中,比如redis等内存数据库。    


从数据保障看,实时数仓要保证实时性,所以对数据量的变化较为敏感,在上线迎接大数据量流入时,要提前做好 压测和主备保障工作,这是与离线数据的一个较为明显的区别。


二、Kappa 流批一体架构



Kappa 架构的目标就是抛弃掉离线数据处理模块,形成流批统一的架构模型。这种流批统一的架构模型同时会丢掉离线计算更为可靠的特点,完全依赖于消息中间件(比如 kafka)的稳定性和缓存能力。        


为了实现流批处理的一体,flink 1.12 版本真正意义的实现了流批一体的设计架构模式,flink是流式计算框 架,其中的批处理是流处理的一种特殊形式的存在。


image.png


1、Kappa 流批一体架构流程


image.png


2、Kappa 流批一体架构过程的阶段


以消息队列 kafka 作为流处理平台保留永久数据日志的的特性,重新处理实时层中的历史数据,全新的 Kappa 架 构的过程分为以下阶段:    


1.输入数据存储到消息队列中比如 kafka 中,数据保留时间一般需要修改,不能使用默认的7天时间,要设置为指 定的时间区域,比如(365天)或者保留时间区域为无限制,永久。    


实时层计算业务逻辑口径如果发生的变化,需要对消息队列中的所有数据进行重演(重新处理),如何重演 kafka  中的数据呢?


在实际的计算中,只需要将日志偏移量(log offset)设置为 0 即可,作业就会从最早 (earlist) 开 始处理历史数据;在流批一体中,使用 flink 作为实时计算引擎组件,Flink 的流表可以存储上百张粒度为日的数 据,从而保证微批处理足够大可以替换掉离线处理数据。


2. 后端服务层主要从将实时计算引擎得到的结果(结果存储数据库中)获取之后为用户提供查询接口并实现前端 可视化大屏展示,为用户提供查询服务。  


Kappa架构能够将实时和批处理有机的结合到一起,方便运维维护,而且对外提供了一套数据口径和访问接口问题。


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
14天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
37 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
719 2
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
70 0
|
4月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
68 0
|
4月前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
74 0
|
4月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
122 0
|
2月前
|
Ubuntu Linux
百度搜索:蓝易云【Linux平台下构建TigerVNC项目教程】
至此,你已经成功在Linux平台下构建并安装了TigerVNC项目。现在你可以启动VNC服务器并通过VNC客户端连接到远程桌面。请注意,上述步骤仅适用于一般情况,具体的构建步骤可能会因为不同的系统环境和版本而有所不同。在实际操作中,可能还需要根据实际情况进行一些调整。
35 1
|
2月前
|
监控 物联网 大数据
智慧工地管理平台系统源码基于物联网、云计算、大数据等技术
智慧工地平台APP通过对施工过程人机料法环的全面感知、互联互通、智能协同,提高施工现场的生产效率、管理水平和决策能力,实现施工管理的数字化、智能化、精益化。
56 0
|
3月前
|
SQL 分布式计算 HIVE
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
|
3月前
|
SQL 消息中间件 分布式计算
开源湖仓一体平台(一):LakeSoul
开源湖仓一体平台(一):LakeSoul

热门文章

最新文章