开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:分层更高效,对 Hive 数仓进行热度/冷度统计】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13981
分层更高效,对 Hive 数仓进行热度/冷度统计
内容介绍
一、热/冷度统计介绍
二、热/冷度统计用法
三、演示
一、热/冷度统计介绍
(1)为什么要分层统计0
l Hadoop
l 所有数据一视同仁
l 数据量增加时,成本也在增加
l OSS
l 横向扩展
l 多种数据存储类型.不同计费方式
(2) OSS 数据存储类型
l 标准
l 0.12元/GB/月
l 低频访问
l 0.08元/GB/月
l 归档
l 0.033元/GB/月
l 冷归档
l 0.015元/GB/月
(3)数据热/冷度统计
l 区分不同类型数据
l 降低成本
l 缓存加速
二、热/冷度统计用法
(1)适用范围
l 引擎
l Hive
l Spark
l Presto
l 自建 Hadoop 集群
l 需要结合其他 JindoFS 的服务一起使用
l 版本
l 冷度统计
l EMR-3.35/4.9之后的版本
l 热度统计
l EMR- 3.33/4.3之后的版本
l 暂不支持 DLF 数据湖元数据
(2)Hive 开启热度统计
l 登陆阿里云 E-MapReduce 控制台进入自己的集群
l 集群服务- > Hive->配置
l 搜索参数 hive.exec post.hooks,在其后追加com.aliyun.emr.table.hive.HivePostHook
l 保存->自动更新配置->重启HiveServer2
(3)Hive 开启冷度统计
l 参照热度统计配置 hive.exec.post.hooks
l 服务配置 -> hive-site ->自定义配置
l key : hive.hook.update.access.time.enabled
l value : true
l 保存配置->重启All Components
(4)Spark 开启热度统计
l SmartData 3.2.X版本后,Spark 默认开启数据收集。
(5)Spark 开启冷度统计
l 登陆阿里云 E-MapReduce 控制台进入自己的集群
l 集群服务 -> Spark-> 配置
l 搜索参数 spark.sql.queryExecutionListeners, 确保参数值中包括
com.aliyun.emr.table.spark. SparksQLQueryListener,如果存在多个 listener, 使用英文分号隔开。
l 服务配置-> spark-defaults ->自定义配置
l key: spark.sql.query.update acestisme enabled
l value: true
l 保存配置
l 重启 All Components
(6)Presto 开启热度统计
l SmartData 3.2.X版本后,Presto 默认开启数据收集。
(7)Presto 开启冷度统计
l 登陆阿里云 E-MapReduce控制台进入自己的集群
l 集群服务-> Presto ->配置
l 搜索参数event-listener.name,确保参数值中包括. jindo- presto-post- event-listener
l 服务配置-> event-listener.properties ->自定义配置
l key: listener.update .access.time.enabled
l value: true
l 保存配置
l 重启AlIL Components
(8)热度统计用法
l 语法
l jindo table -accessStat-d -n
l days 和 topNums 都是正整数
l 当 days 为1时,表示查询从本地时间当天00:00起的所有访问记录
l 功能
l 查询指定时间范围内,访问最多的N个表或分区的记录
l 示例:查询过去7天内访问次数最多的20条表或分区记录
l jindo table-accessStat-d7-n20
(9)冷度统计用法
l 语法
l jindo table -leastUseStat -n [-i/-ignoreNever]
nums是显示的记录数量,为正整数
-i/-ignoreNever为可选参数,会过滤从未被访问过的表或分区
l 功能
l 展示最久未被访问的表或分区
l 示例:查询最久未被访问的20条表或分区的记录
l jindo table -leastUseStat -n20
三、演示
1.演示
l 配置参数
l 操作数据
l 热/冷度功能展示
2.相关资料
l 热度统计使用文档:
https://help.aliyun.com/document detail/264174.html
l 冷度统计使用文档:
https://help.aliyun.com/document detail/264175.html