分层更高效,对 Hive 数仓进行热度/冷度统计

分层更高效,对 Hive 数仓进行热度/冷度统计 | 学习笔记

2021-12-19 937

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习分层更高效,对 Hive 数仓进行热度/冷度统计。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲：分层更高效,对 Hive 数仓进行热度/冷度统计】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/833/detail/13981

内容介绍

一、热/冷度统计介绍

二、热/冷度统计用法

三、演示

一、热/冷度统计介绍

（1）为什么要分层统计0

l Hadoop

l 所有数据一视同仁

l 数据量增加时，成本也在增加

l OSS

l 横向扩展

l 多种数据存储类型.不同计费方式

(2) OSS 数据存储类型

l 标准

l 0.12元/GB/月

l 低频访问

l 0.08元/GB/月

l 归档

l 0.033元/GB/月

l 冷归档

l 0.015元/GB/月

(3)数据热/冷度统计

l 区分不同类型数据

l 降低成本

l 缓存加速

二、热/冷度统计用法

(1)适用范围

l 引擎

l Hive

l Spark

l Presto

l 自建 Hadoop 集群

l 需要结合其他 JindoFS 的服务一起使用

l 版本

l 冷度统计

l EMR-3.35/4.9之后的版本

l 热度统计

l EMR- 3.33/4.3之后的版本

l 暂不支持 DLF 数据湖元数据

(2)Hive 开启热度统计

l 登陆阿里云 E-MapReduce 控制台进入自己的集群

l 集群服务- > Hive->配置

l 搜索参数 hive.exec post.hooks,在其后追加com.aliyun.emr.table.hive.HivePostHook

l 保存->自动更新配置->重启HiveServer2

(3）Hive 开启冷度统计

l 参照热度统计配置 hive.exec.post.hooks

l 服务配置 -> hive-site ->自定义配置

l key : hive.hook.update.access.time.enabled

l value : true

l 保存配置->重启All Components

(4)Spark 开启热度统计

l SmartData 3.2.X版本后，Spark 默认开启数据收集。

(5)Spark 开启冷度统计

l 登陆阿里云 E-MapReduce 控制台进入自己的集群

l 集群服务 -> Spark-> 配置

l 搜索参数 spark.sql.queryExecutionListeners, 确保参数值中包括

com.aliyun.emr.table.spark. SparksQLQueryListener,如果存在多个 listener, 使用英文分号隔开。

l 服务配置-> spark-defaults ->自定义配置

l key: spark.sql.query.update acestisme enabled

l value: true

l 保存配置

l 重启 All Components

(6)Presto 开启热度统计

l SmartData 3.2.X版本后，Presto 默认开启数据收集。

(7)Presto 开启冷度统计

l 登陆阿里云 E-MapReduce控制台进入自己的集群

l 集群服务-> Presto ->配置

l 搜索参数event-listener.name,确保参数值中包括. jindo- presto-post- event-listener

l 服务配置-> event-listener.properties ->自定义配置

l key: listener.update .access.time.enabled

l value: true

l 保存配置

l 重启AlIL Components

(8)热度统计用法

l 语法

l jindo table -accessStat-d -n

l days 和 topNums 都是正整数

l 当 days 为1时，表示查询从本地时间当天00:00起的所有访问记录

l 功能

l 查询指定时间范围内，访问最多的N个表或分区的记录

l 示例:查询过去7天内访问次数最多的20条表或分区记录

l jindo table-accessStat-d7-n20

(9)冷度统计用法

l 语法

l jindo table -leastUseStat -n [-i/-ignoreNever]

nums是显示的记录数量，为正整数

-i/-ignoreNever为可选参数，会过滤从未被访问过的表或分区

l 功能

l 展示最久未被访问的表或分区

l 示例:查询最久未被访问的20条表或分区的记录

l jindo table -leastUseStat -n20

三、演示

1.演示

l 配置参数

l 操作数据

l 热/冷度功能展示

2.相关资料

l 热度统计使用文档:

https://help.aliyun.com/document detail/264174.html

l 冷度统计使用文档:

https://help.aliyun.com/document detail/264175.html

分层更高效,对 Hive 数仓进行热度/冷度统计 | 学习笔记