数据湖实操讲解【JindoFS 缓存加速】第十四讲：指定表和分区来预先缓存，查询分析更高效-阿里云开发者社区

数据湖实操讲解【JindoFS 缓存加速】第十四讲：指定表和分区来预先缓存，查询分析更高效

2021-07-01 5363

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【JindoFS 缓存加速】第十四讲

主题：指定表和分区来预先缓存，查询分析更高效

讲师：抚月，阿里巴巴计算平台事业部开源大数据平台技术专家

内容框架：

背景介绍
功能介绍
使用方法
实操演示

直播回放链接：（14讲）

https://developer.aliyun.com/live/246996

一、背景介绍

传统集群架构：

•存储计算一体

•存储量与计算量无法始终匹配

•存储无法水平扩展

存算分离架构：

•计算资源动态伸缩

•海量的存储空间

•稳定可靠的存储服务

•计算节点剩余的磁盘、内存资源可以用于缓存加速

指定表和分区来预先缓存：

TPC-DS生成的标准数仓数据：

维表：例item、store 经常访问，可预先缓存

事实表：采用时间分区

二、功能介绍

JindoFS缓存模式架构图：

架构介绍：

Jindo Namespace Service：JindoFS 元数据管理以及 Storage 服务的管理
Jindo Storage Service：用户数据的管理包含本地数据的管理和OSS上数据的管理
Jindo SDK 客户端：所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统，从而实现对后端存储实现缓存加速

计算服务通过Jindo SDK访问数据，Jindo SDK从Jindo Namespace Service查询缓存位置信息，然后向集群中的Jindo Storage Service读取缓存数据，如果命中缓存直接返回；如果没有命中缓存，则从OSS读取数据，并将缓存写入Jindo Storage Service，供下次使用。

三、使用方法

部署缓存服务

下载最新 Release包 b2smartdata-x.x.x.tar.gz，解压并部署到集群所有节点上
修改配置文件conf/bigboot.cfg

修改 sbin/nodes，配置所有storageservice的节点列表
启动所有服务 ./sbin/start-service.sh

参考网址：

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

安装 jar包：下载最新的jar包 jindofs-sdk-x.x.x.jar，在所有 Hadoop 节点安装。

cp ./jindofs-sdk-*.jar /share/hadoop/hdfs/lib/jindofs-sdk.jar

配置 JindoFS 实现类：将JindoFS 实现类配置到Hadoop的core-site.xml中
将OSS的Access Key、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

指定表和分区来预先缓存

cache命令和uncache命令：

四、实操演示

⭐点击回放链接，直接观看第14讲视频回放，获取讲师实例讲解：

https://developer.aliyun.com/live/246996

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

数据湖实操讲解【JindoFS 缓存加速】第十四讲：指定表和分区来预先缓存，查询分析更高效

本期导读：【JindoFS 缓存加速】第十四讲