Kylin的入门实战

简介: Kylin 是一个 Hadoop 生态圈下的 MOLAP 系统,是 ebay 大数据部门从2014 年开始研发的支持 TB 到 PB 级别数据量的分布式 Olap 分析引擎。

1. 基于Kylin的预警分析


1.1. Kylin简介


Kylin的诞生背景


1.Kylin 是一款大数据OLAP引擎,由ebay-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目


2.Hive的性能比较慢,支持SQL灵活查询


3.HBase的性能快,原生不支持SQL


4.Kylin是将先将数据进行预处理,将预处理的结果放在HBase中。效率很高


1.2. 为什么要使用Kylin


Kylin 是一个 Hadoop 生态圈下的 MOLAP 系统,是 ebay 大数据部门从2014 年开始研发的支持 TB 到 PB 级别数据量的分布式 Olap 分析引擎。其特点包括:


1.可扩展的超快的 OLAP 引擎


2.提供 ANSI-SQL 接口


3.交互式查询能力


4.MOLAP Cube 的概念(立方体)


5.与 BI 工具可无缝整合


1.3. Kylin的应用场景


Kylin 典型的应用场景如下:


1.用户数据存在于Hadoop HDFS中,利用Hive将HDFS文件数据以关系数据方式存取,数据量巨大,在500G以上


2.每天有数G甚至数十G的数据增量导入


3.有10个以内较为固定的分析维度


Kylin 的核心思想是利用空间换时间,在数据 ETL 导入 OLAP 引擎时提前计算各维度的聚合结果并持久化保存


292aef75cddb4dfbacb6096f0b2c5bf0.png


1.4. Kylin的总体架构


Kylin 依赖于 Hadoop、Hive、Zookeeper 和 Hbase


e358a534094c4269856794a31b6963e7.png

2a3269c139234fc9b041ae895d82ae33.png


2. Kylin启动


2.1. 启动集群


1、启动zookeeper


(1) zkServer.sh start


2、启动HDFS


(1) start-all.sh


3、启动YARN集群


4、启动HBase集群


start-hbase.sh


5、启动 metastore


nohup hive --service metastore &


6、启动 hiverserver2


nohup hive --service hiveserver2 &


7、启动Yarn history server


mr-jobhistory-daemon.sh start historyserver


8、启动spark history server【可选】


sbin/start-history-server.sh


9、启动kylin


./kylin.sh start


10、登录Kylin


http://node01:7070/kylin


url

http://IP:7070/kylin

默认用户名

ADMIN

默认密码

KYLIN


用户名和密码都必须是大写


3. Kylin实战 - 使用Kylin进行OLAP分析


3.1. 测试数据表结构介绍


1、(事实表)dw_sales


列名

列类型

说明

id

string

订单id

date1

string

订单日期

channelid

string

订单渠道(商场、京东、天猫)

productid

string

产品id

regionid

string

区域名称

amount

int

商品下单数量

price

double

商品金额


2、(维度表_渠道方式)dim_channel


列名 列类型 说明
channelid string 渠道id
channelname string 渠道名称


3、(维度表_产品名称)dim_product


列名 列类型 说明
productid string 产品id
productname string 产品名称



4、(维度表_区域)dim_region


列名 类类型 说明
regionid string 区域id
regionname string 区域名称


3.2. 导入测试数据


为了方便后续学习Kylin的使用,需要准备一些测试表、测试数据。


1.Hive中创建表


2.将数据从本地文件导入到Hive


操作步骤


1、使用 beeline 连接Hive


!connect jdbc:hive2://node01:10000


2、创建并切换到 itcast_dw 数据库


create database itcast_dw;use itcast_dw;


3、创建测试数据文件夹,并将测试数据文件上传到该文件夹中


mkdir -p /export/servers/tmp/kylin


将“4.资料> 02.Kylin> 4.kylin_实战_hive_建表语句> 数据文件”中的数据上传至此目录


4、找到资料中的“4.资料> Kylin> 4.kylin_实战_hive_建表语句> hive.sql”文件,执行sql、创建测试表,并导入数据到表中


– 查看表是否创建成功show tables;


5、执行一条SQL语句,确认数据是否已经成功导入


select from dw_sales;


3.3. 按照日期统计订单总额/总数量(Hive方式)


操作步骤:


1、使用beeline连接Hive


2、切换到itcast_dw数据库


3、编写SQL语句


操作步骤:


1、使用beeline连接Hive


2、切换到itcast_dw数据库


use itcast_dw;


2、在代码目录中创建sql文件,编写SQL语句


select date1, sum(price) as total_money, sum(amount) as total_amount from dw_sales group by date1;


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
11天前
|
SQL 存储 数据库
IOTDB入门(六)
【4月更文挑战第28天】
|
11天前
|
SQL 存储 Java
IOTDB入门(七)
【4月更文挑战第28天】
|
11天前
|
存储 数据可视化 物联网
IOTDB入门(三)
【4月更文挑战第28天】
|
11天前
|
存储 SQL Java
IOTDB入门(四)
【4月更文挑战第28天】
|
11天前
|
存储 数据可视化 物联网
IOTDB入门(二)
【4月更文挑战第28天】
|
11天前
|
存储 数据可视化 物联网
IOTDB入门(一)
【4月更文挑战第28天】
|
12月前
|
SQL 存储 分布式计算
工良出品:包教会,Hadoop、Hive 搭建部署简易教程
导读 Hadoop、Hive 是什么 运行环境 Java 环境 Mysql 下载 Hadoop、Hive 和 驱动 安装 Hadoop core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml hadoop-env.cmd 启动 Hadoop 安装 Hive 配置 Hive hive-env.sh hive-site.xml 运行 Hive 连接到 Hive
219 0
|
SQL 资源调度 分布式计算
CDH+Kylin三部曲之三:Kylin官方demo
本文是《CDH+Kylin三部曲》系列的终篇,一起来实践kylin官方的demo
CDH+Kylin三部曲之三:Kylin官方demo
|
SQL 安全 大数据
免费下载!从入门到精通,实时计算 Flink 版独家实战秘籍
9天 Get 企业级大数据实战能力!阿里巴巴核心研发团队手把手教学~
免费下载!从入门到精通,实时计算 Flink 版独家实战秘籍
|
存储 Java Scala
Flink从入门到放弃(入门篇3)-DataSetAPI
首先我们来看一下编程结构: 编程结构 public class SocketTextStreamWordCount { public static void main(String[] args) throws Exception { if (args.
1183 0