Hive数据仓库维度分析

简介: Hive数据仓库维度分析

1 指标与维度

这里个人理解:先有指标后有维度,指标相当于具体一些列数据,维度相当于在这一些数据中的某种条件下的数据.


要进行维度分析需要先理解两个术语:指标和维度。指标是衡量事物发展的标准,也叫度量,如价

格,销量等;指标可以求和、求平均值等计算,指标分为绝对数值和相对数值,绝对数值反映具体的大

小和多少,如价格、销量、分数等;相对数值反映一定的程度,如及格率、购买率等。

维度是事物的特征,如颜色、区域、时间等,可以根据不同的维度来对指标进行分析对比。比如根据

区域维度来分析不同区域的产品销量,根据时间来分析每个月产品的销量,同一个产品销量指标从不同

的维度分析会得出不同的结果。维度分为定性和定量两种,定性维度就是字符类型的特征,比如区域维

度包括全国各省份;定量维度就是数值类型的特征,如价格区间、销量区间等,如价格区间维度分为0-

-100、100-1000两个区间,可以按价格区间维度来对指标进行分析,说到这里,其实指标是可以转成

维度的,所转成的维度就是定量维度。


2 业务需求

课程访问量、课程购买量等。下图以课程访问量为例, 理解需求:


78a52aebf0114918bffd4a88daf721f1.png


3 识别维度

在日常生活中,我们从不同的角度看待事务会有不同的体会,数据分析也如此,比如:一个在线教育

的平台,作为运营方会关注按时间段分析课程的访问量,作为教育机构则关注单个课程的访问量,都是

课程访问量指标根据不同的维度去分析得到结果不同,这就是维度分析。

比如:按时间分析课程访问量,时间维度是课程访问量的分析依据,时间维度和业务中的课程访问量

是对应的,下表列出了课程访问量明细记录:

253033b014fc4f2bbf066b020fa78b5d.png

上表中显示了部分课程访问的记录,每条记录表示一次课程访问,记录内容包括:IP,访问时间、课程

ID,根据上边的记录可以按时间统计每天所有课程的访问量,时间就是一个维度,如下是按时间维度分

析的课程访问量:

时间维度(天)

70b3f61e64ba4e7e8dac3c808c3ebc9d.png

维度是数据仓库建模的基础,维度是在分析时从多个方面来进行分析,根据上边的例子,将课程访问

作为度量,识别的维度包括:课程、时间、机构、课程分类等,如下图:

819075cbafd24bdb8b19c5a029bd492b.png


将课程购买作为度量的维度包括:

fb3186c08de24da895324193e66cb67a.png


4 关键指标

在进行维度分析前需要收集关键指标,关键指标就是运营管理者最关心的指标,比如市场总监提出的

产品销量、新增客户等指标;财务经理提出的营业额、利润率等。


5 分层与分级

通常在分析结果中首先看到的是一个总数,比如全年课程购买量,然后会详细去看每个季度、每个月

的课程购买量,全年、季度、月这些属于时间维度的一个层次,年、季度、月是这个层次的三个级别,

比如按地区分析课程购买量,全国、省、市、县属于地区维度的一个层次,层次中共有四个级别。

每个维度至少有一个层次且该层次至少有一个级别。下边将课程访问的各各维度定义层次和级别,如

下:

75755dc2dc934889a4e0ef098327a639.png

时间维度:

一个层次四个级别:年、月、周、天

课程维度:

课程名称:只有一个级别,每门课程的名称

课程分类:两个级别,大类和小类

课程难度:只有三个级别,简单、一般、难

课程等级:只有三个级别,初、中、高

地区维度:

一个层次三个级别:省、市、县


目录
相关文章
|
4月前
|
SQL HIVE
Hive LAG函数分析
Hive LAG函数分析
36 0
|
7月前
|
SQL 分布式计算 搜索推荐
Hive数据仓库数据分析
Hive数据仓库数据分析
138 0
|
4月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
198 0
|
12天前
|
SQL HIVE
Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
【4月更文挑战第6天】Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
14 0
|
17天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
58 1
|
1月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
216 2
数据仓库(09)数仓缓慢变化维度数据的处理
|
6月前
|
存储 数据挖掘 关系型数据库
数仓学习---6、数据仓库概述、 数据仓库建模概述、维度建模理论之事实表、维度建模理论之维度表
数仓学习---6、数据仓库概述、 数据仓库建模概述、维度建模理论之事实表、维度建模理论之维度表
|
3月前
|
数据挖掘 数据库
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
离线数仓6.0--- 数据仓库 ER模型-范式理论,维度模型、维度建模理论之事实表、维度建模理论之维度表
122 0
|
4月前
|
SQL 数据可视化 关系型数据库
【大数据实训】基于Hive的北京市天气系统分析报告(二)
【大数据实训】基于Hive的北京市天气系统分析报告(二)
63 1
|
4月前
|
存储 大数据 数据管理
数据仓库(08)数仓事实表和维度表技术
所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发
55 1