数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计-阿里云开发者社区

开发者社区> 阿里云EMR> 正文
登录阅读全文

数据湖实操讲解【 JindoTable 计算加速】第二十一讲:分层更高效,对 Hive 数仓进行热度/冷度统计

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoTable 计算加速】第二十一讲


主题:分层更高效,对 Hive 数仓进行热度/冷度统计uid + JindoFSOSS 上数据进行训练加速

讲师:羊川,阿里巴巴计算平台事业部 开发工程师


内容框架:

  • 热/冷度统计介绍
  • 热/冷度统计用法
  • 演示


直播回放链接:(21讲)

https://developer.aliyun.com/live/247112

一、热/冷度统计介绍

为什么要分层统计    

  • Hadoop

   • 所有数据一视同仁

   • 数据量增加时,成本也在增加


  • OSS

   • 横向拓展

多种数据存储类型

   • 不同计费方式

OSS 数据存储类型

  • 标准

   • 0.12元/GB/月

  • 低频访问

   • 0.08元/GB/月

  • 归档

   • 0.033元/GB/月

  • 冷归档

   • 0.015元/GB/月

数据热/冷度统计

  • 区分不同类型数据
  • 降低成本
  • 缓存加速


二、热/冷度统计用法

适用范围

  • 引擎

   • Hive

   • Spark

   • Presto

  • 版本

   • 冷度统计( EMR-3.35/4.9之后的版本

   • 热度统计EMR-3.33/4.3之后的版本

   • 暂不支持 DLF 数据湖元数据

  • 自建 Hadoop 集群

   • 需要结合其他JindoFS的服务一起使用

Hive 开启热度统计

  • 登陆阿里云 E-MapReduce 控制台进入自己的集群
  • 集群服务 –> Hive –> 配置
  • 搜索参数 hive.exec.post.hooks,在其后追加 com.aliyun.emr.table.hive.HivePostHook
  • 保存 -> 自动更新配置 -> 重启 HiveServer2

Hive 开启冷度统计

  • 参照热度统计配置 hive.exec.post.hooks
  • 服务配置 -> hive-site -> 自定义配置

 • key:hive.hook.update.access.time.enabled

 • value:true

  • 保存配置 -> 重启 All Components

Spark 开启热度统计

  • SmartData 3.2.X版本后,Spark 默认开启数据收集

Spark 开启冷度统计

  • 登陆阿里云 E-MapReduce 控制台进入自己的集群
  • 集群服务 -> Spark -> 配置

 • 搜索参数 spark.sql.queryExecutionListeners,确保参数值中包括 com.aliyun.emr.table.spark.SparkSQLQueryListener,如果存在多个 listener,使用英文分号隔开。

  • 服务配置 -> spark-defaults -> 自定义配置

 • key: spark.sql.query.update.access.time.enabled

 • value: true

 • 保存配置

 • 重启 All Components

Presto 开启热度统计

  • SmartData 3.2.X版本后,Presto 默认开启数据收集

Presto 开启冷度统计

  • 登陆阿里云 E-MapReduce 控制台进入自己的集群
  • 集群服务 -> Presto -> 配置

 • 搜索参数 event-listener.name,确保参数值中包括 jindo-presto-post-event-listener

  • 服务配置 -> event-listener.properties -> 自定义配置

 • key: listener.update.access.time.enabled

 • value: true

 • 保存配置

 • 重启 All Components

热度统计用法

  • 语法

 • jindo table –accessStat -d -n

days 和 topNums 都是正整数

当 days 为1时,表示查询从本地时间当天00:00起的所有访问记录


  • 功能

 • 查询指定时间范围内,访问最多的 N 个表或分区的记录


  • 示例:查询过去7天内访问次数最多的20条表或分区记录

 • jindo table -accessStat –d 7 –n 20

冷度统计用法

  • 语法

 • jindo table –leastUseStat -n [-i/-ignoreNever]

nums 是显示的记录数量,为正整数

-i/-ignoreNever 为可选参数,会过滤从未被访问过的表或分区


  • 功能

 • 展示最久未被访问的表或分区


  • 示例:查询最久未被访问的20条表或分区的记录

 • jindo table –leastUseStat –n 20


三、演示


  • 配置参数
  • 操作数据
  • 热/冷度功能展示


相关文档链接:

  • 热度统计使用文档:

https://help.aliyun.com/document_detail/264174.html

  • 冷度统计使用文档:

https://help.aliyun.com/document_detail/264175.html



点击回放链接,直接观看第21讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247112




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
最新文章
相关文章
官网链接