【Kylin】(一)初识 Apache Kylin 2

简介: 【Kylin】(一)初识 Apache Kylin 2


六、Kylin 工作原理


Apache Kylin 的工作原理本质上是MOLAP(Multidimension On-Line Analysis Processing)Cube,也就是多维立方体分析。是数据分析中非常经典的理论,下面对其做简要介绍。


6.1 维度和度量


维度:即观察数据的角度。比如员工数据,可以从性别角度来分析,也可以更加细化,从入职时间或者地区的维度来观察。维度是一组离散的值,比如说性别中的男和女,或者时间维度上的每一个独立的日期。因此在统计时可以将维度值相同的记录聚合在一起,然后应用聚合函数做累加、平均、最大和最小值等聚合计算。


度量:即被聚合(观察)的统计值,也就是聚合运算的结果。比如说员工数据中不同性

别员工的人数,又或者说在同一年入职的员工有多少。


6.2 Cube 和Cuboid


有了维度跟度量,一个数据表或者数据模型上的所有字段就可以分类了,它们要么是维度,要么是度量(可以被聚合)。于是就有了根据维度和度量做预计算的Cube 理论。


给定一个数据模型,我们可以对其上的所有维度进行聚合,对于N 个维度来说,组合的所有可能性共有2n 种。对于每一种维度的组合,将度量值做聚合计算,然后将结果保存为一个物化视图,称为Cuboid。所有维度组合的Cuboid 作为一个整体,称为Cube。


下面举一个简单的例子说明,假设有一个电商的销售数据集,其中维度包括时间[time]、

商品[item]、地区[location]和供应商[supplier],度量为销售额。那么所有维度的组合就有2的4次方 =16 种,如下图所示:



  • 一维度(1D)的组合有:[time]、[item]、[location]和[supplier]4 种;


  • 二维度(2D)的组合有:[time, item]、[time, location]、[time, supplier]、[item, location]、[item, supplier]、[location, supplier]3 种;


  • 三维度(3D)的组合也有4 种;


最后还有零维度(0D)和四维度(4D)各有一种,总共16 种。


注意:每一种维度组合就是一个Cuboid,16 个Cuboid 整体就是一个Cube。


6.3 核心算法


Kylin 的工作原理就是对数据模型做Cube 预计算,并利用计算的结果加速查询:


1)指定数据模型,定义维度和度量;


2)预计算Cube,计算所有Cuboid 并保存为物化视图;


预计算过程是Kylin 从Hive 中读取原始数据,按照我们选定的维度进行计算,并将结果集保存到Hbase 中,默认的计算引擎为MapReduce,可以选择Spark 作为计算引擎。一次 build 的结果,我们称为一个Segment。构建过程中会涉及多个Cuboid 的创建,具体创建过程由 kylin.Cube.algorithm 参数决定,参数值可选 auto,layer 和 inmem, 默认值为auto,即 Kylin 会通过采集数据动态地选择一个算法(layer or inmem),如果用户很了解Kylin 和自身的数据、集群,可以直接设置喜欢的算法。


3)执行查询,读取Cuboid,运行,产生查询结果。


6.3.1 逐层构建算法(layer)



我们知道,一个N 维的Cube,是由1 个N 维子立方体、N 个(N-1)维子立方体、N*(N-1)/2

个(N-2)维子立方体、…、N 个1 维子立方体和1 个0 维子立方体构成,总共有2^N 个子立

方体组成,在逐层算法中,按维度数逐层减少来计算,每个层级的计算(除了第一层,它是从原始数据聚合而来),是基于它上一层级的结果来计算的。比如,[Group by A, B]的结果,可以基于[Group by A, B, C]的结果,通过去掉C 后聚合得来的;这样可以减少重复计算;当 0 维度Cuboid 计算出来的时候,整个Cube 的计算也就完成了。


每一轮的计算都是一个MapReduce 任务,且串行执行;一个N 维的Cube,至少需要

N+1 次MapReduce Job。


算法优点:


1)此算法充分利用了MapReduce 的能力,处理了中间复杂的排序和洗牌工作,故而算法代码清晰简单,易于维护;


2)受益于Hadoop 的日趋成熟,此算法对集群要求低,运行稳定;在内部维护Kylin的过程中,很少遇到在这几步出错的情况;即便是在Hadoop 集群比较繁忙的时候,任务也能成。


算法缺点:


1)当Cube 有比较多维度的时候,所需要的MapReduce 任务也相应增加;由于Hadoop 的任务调度需要耗费额外资源,特别是集群较庞大的时候,反复递交任务造成的额外开销会相当可观;


2)此算法会对Hadoop MapReduce 输出较多数据; 虽然已经使用了Combiner 来减少从

Mapper 端到Reducer 端的数据传输,所有数据依然需要通过Hadoop MapReduce 来排序和组合才能被聚合,无形之中增加了集群的压力;


3)对HDFS 的读写操作较多:由于每一层计算的输出会用做下一层计算的输入,这些

Key-Value 需要写到HDFS 上;当所有计算都完成后,Kylin 还需要额外的一轮任务将这些文件转成HBase 的HFile 格式,以导入到HBase 中去;


总体而言,该算法的效率较低,尤其是当Cube 维度数较大的时候。


6.3.2 快速构建算法(inmem)



也被称作“逐段”(By Segment) 或“逐块”(By Split) 算法,从1.5.x 开始引入该算法,利用

Mapper 端计算先完成大部分聚合,再将聚合后的结果交给Reducer,从而降低对网络瓶颈的压力。该算法的主要思想是,对Mapper 所分配的数据块,将它计算成一个完整的小Cube 段(包含所有Cuboid);每个Mapper 将计算完的Cube 段输出给Reducer 做合并,生成大Cube,也就是最终结果;如图所示解释了此流程。



与旧算法相比,快速算法主要有两点不同:


1) Mapper 会利用内存做预聚合,算出所有组合;Mapper 输出的每个Key 都是不同的,这样会减少输出到Hadoop MapReduce 的数据量;


2)一轮MapReduce 便会完成所有层次的计算,减少Hadoop 任务的调配。


6.4 原理


Apache Kylin的工作原理就是对数据模型做Cube预计算,并利用计算 的结果加速查询,具体工作过程如下。


指定数据模型,定义维度和度量。

预计算Cube,计算所有Cuboid并保存为物化视图。

执行查询时,读取Cuboid,运算,产生查询结果。

由于Kylin的查询过程不会扫描原始记录,而是通过预计算预先完成 表的关联、聚合等复杂运算,并利用预计算的结果来执行查询,因此相比 非预计算的查询技术,其速度一般要快一到两个数量级,并且这点在超 大的数据集上优势更明显。当数据集达到千亿乃至万亿级别时,Kylin的 速度甚至可以超越其他非预计算技术1000倍以上。


七、小结


Kylin 通过预计算,把计算结果集保存在HBase中,原有的基于行的关系模型被转换成基于键值对的列式存储;通过维度组合作为HBase的Rowkey,在查询访问时不再需要昂贵的表扫描,这为高速高并发分析带来了可能;Kylin提供了标准SQL查询接口,支持大多数的SQL函数,同时也支持ODBC/JDBC的方式和主流的BI产品无缝集成。


本文介绍了Apache Kylin的历史背景和技术特点。尤其是它基于预计算的大数据查询原理,理论上可以在任意大的数据规模上达到O(1)常数级别的查询速度,这一点也是Apache Kylin与传统查询技术的关键区别,如下图所示。



传统技术,如大规模并行计算和列式存储的查询速度都在 O(N)级别,与数据规模增线性关系。如果数据规模增长10倍,那么O(N) 的查询速度就会下降到十分之一,无法满足日益增长的数据需求。依靠 Apache Kylin,我们不用再担心查询速度会随着数据量的增长而减慢,面对未来的数据挑战时也能更有信心。


相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
Apache SQL HIVE
带你读《Apache Kylin权威指南》之二:快 速 入 门
从最早使用大数据技术来做批量处理,到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析,随着数据量的不断膨胀、数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。
|
25天前
|
SQL 存储 分布式计算
Apache Kylin 概述
Apache Kylin 概述
|
2月前
|
存储 SQL 分布式计算
KIP-5:Apache Kylin深度集成Hudi
KIP-5:Apache Kylin深度集成Hudi
39 0
|
分布式计算 前端开发 JavaScript
Apache kylin 4 源码环境构建
Apache kylin 4 源码环境构建
100 0
|
资源调度 Linux 分布式数据库
【Kylin】(二)Apache Kylin 环境搭建
【Kylin】(二)Apache Kylin 环境搭建
235 0
【Kylin】(二)Apache Kylin 环境搭建
|
SQL 存储 分布式计算
【Kylin】(一)初识 Apache Kylin 1
【Kylin】(一)初识 Apache Kylin 1
239 0
【Kylin】(一)初识 Apache Kylin 1
|
SQL 存储 人工智能
从给丈母娘榨果汁带你认识Apache Kylin(文末赠书)
从给丈母娘榨果汁带你认识Apache Kylin(文末赠书)
从给丈母娘榨果汁带你认识Apache Kylin(文末赠书)
|
存储 SQL 分布式计算
Apache Kylin 云原生架构的思考及规划
在 1 月 4 号 ECUG 技术大会的分享中,Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲,分享了 Kylin 如何拥抱云原生这一趋势。以下为演讲实录。
Apache Kylin 云原生架构的思考及规划
|
存储 Hbase 分布式数据库
带你读《Apache Kylin权威指南》之三:Cube优化
从最早使用大数据技术来做批量处理,到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析,随着数据量的不断膨胀、数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。
|
1月前
|
监控 大数据 Java
使用Apache Flink进行大数据实时流处理
Apache Flink是开源流处理框架,擅长低延迟、高吞吐量实时数据流处理。本文深入解析Flink的核心概念、架构(包括客户端、作业管理器、任务管理器和数据源/接收器)和事件时间、窗口、状态管理等特性。通过实战代码展示Flink在词频统计中的应用,讨论其实战挑战与优化。Flink作为大数据处理的关键组件,将持续影响实时处理领域。
238 5

推荐镜像

更多