Hive数据仓库维度分析

2023-09-17 391

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hive数据仓库维度分析

1 指标与维度

这里个人理解:先有指标后有维度,指标相当于具体一些列数据,维度相当于在这一些数据中的某种条件下的数据.

要进行维度分析需要先理解两个术语：指标和维度。指标是衡量事物发展的标准，也叫度量，如价

格，销量等；指标可以求和、求平均值等计算，指标分为绝对数值和相对数值，绝对数值反映具体的大

小和多少，如价格、销量、分数等；相对数值反映一定的程度，如及格率、购买率等。

维度是事物的特征，如颜色、区域、时间等，可以根据不同的维度来对指标进行分析对比。比如根据

区域维度来分析不同区域的产品销量，根据时间来分析每个月产品的销量，同一个产品销量指标从不同

的维度分析会得出不同的结果。维度分为定性和定量两种，定性维度就是字符类型的特征，比如区域维

度包括全国各省份；定量维度就是数值类型的特征，如价格区间、销量区间等，如价格区间维度分为0-

-100、100-1000两个区间，可以按价格区间维度来对指标进行分析，说到这里，其实指标是可以转成

维度的，所转成的维度就是定量维度。

2 业务需求

课程访问量、课程购买量等。下图以课程访问量为例，理解需求：

3 识别维度

在日常生活中，我们从不同的角度看待事务会有不同的体会，数据分析也如此，比如：一个在线教育

的平台，作为运营方会关注按时间段分析课程的访问量，作为教育机构则关注单个课程的访问量，都是

课程访问量指标根据不同的维度去分析得到结果不同，这就是维度分析。

比如：按时间分析课程访问量，时间维度是课程访问量的分析依据，时间维度和业务中的课程访问量

是对应的，下表列出了课程访问量明细记录：

上表中显示了部分课程访问的记录，每条记录表示一次课程访问，记录内容包括：IP，访问时间、课程

ID，根据上边的记录可以按时间统计每天所有课程的访问量，时间就是一个维度，如下是按时间维度分

析的课程访问量：

时间维度（天）

维度是数据仓库建模的基础，维度是在分析时从多个方面来进行分析，根据上边的例子，将课程访问

作为度量，识别的维度包括：课程、时间、机构、课程分类等，如下图：

将课程购买作为度量的维度包括：

4 关键指标

在进行维度分析前需要收集关键指标，关键指标就是运营管理者最关心的指标，比如市场总监提出的

产品销量、新增客户等指标；财务经理提出的营业额、利润率等。

5 分层与分级

通常在分析结果中首先看到的是一个总数，比如全年课程购买量，然后会详细去看每个季度、每个月

的课程购买量，全年、季度、月这些属于时间维度的一个层次，年、季度、月是这个层次的三个级别，

比如按地区分析课程购买量，全国、省、市、县属于地区维度的一个层次，层次中共有四个级别。

每个维度至少有一个层次且该层次至少有一个级别。下边将课程访问的各各维度定义层次和级别，如

下：

时间维度：

一个层次四个级别：年、月、周、天

课程维度：

课程名称：只有一个级别，每门课程的名称

课程分类：两个级别，大类和小类

课程难度：只有三个级别，简单、一般、难

课程等级：只有三个级别，初、中、高

地区维度：

一个层次三个级别：省、市、县

Hive数据仓库维度分析

1 指标与维度

2 业务需求

3 识别维度

4 关键指标

5 分层与分级

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Hive数据仓库维度分析

1 指标与维度

2 业务需求

3 识别维度

4 关键指标

5 分层与分级

热门文章

最新文章

相关课程

相关电子书