数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoFS 缓存加速】第十四讲


主题:指定表和分区来预先缓存,查询分析更高效


讲师:抚月,阿里巴巴计算平台事业部 开源大数据平台 技术专家


内容框架:

  • 背景介绍
  • 功能介绍
  • 使用方法
  • 实操演示


直播回放链接:(14讲)

https://developer.aliyun.com/live/246996

一、背景介绍

传统集群架构:

•存储计算一体

•存储量与计算量无法始终匹配

•存储无法水平扩展

image.png

存算分离架构:

•计算资源动态伸缩

•海量的存储空间

•稳定可靠的存储服务

计算节点剩余的磁盘、内存资源可以用于缓存加速

image.png

指定表和分区来预先缓存:

TPC-DS生成的标准数仓数据:

维表:例item、store  经常访问,可预先缓存

事实表:采用时间分区

image.png

二、功能介绍

JindoFS缓存模式架构图:

image.png

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和OSS上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统,从而实现对后端存储实现缓存加速


     计算服务通过Jindo SDK访问数据,Jindo SDK从Jindo Namespace Service查询缓存位置信息,然后向集群中的Jindo Storage Service读取缓存数据,如果命中缓存直接返回;如果没有命中缓存,则从OSS读取数据,并将缓存写入Jindo Storage Service,供下次使用。


三、使用方法

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件conf/bigboot.cfg

     image.png

  • 修改 sbin/nodes,配置所有storageservice的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安装 jar包:下载最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Hadoop 节点安装。

cp ./jindofs-sdk-*.jar /share/hadoop/hdfs/lib/jindofs-sdk.jar

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到Hadoop的core-site.xml中
  • OSSAccess KeyAccess Key SecretEndpoint等预先配置在Hadoopcore-site.xml中。

     image.png          

     image.png      

指定表和分区来预先缓存

   cache命令和uncache命令:

   image.png

     image.png

四、实操演示


点击回放链接,直接观看第14讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246996





Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

                         69c0a02cc68742fca5d49d92413dc67a.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
3月前
|
缓存 Java Shell
Android 系统缓存扫描与清理方法分析
Android 系统缓存从原理探索到实现。
110 15
Android 系统缓存扫描与清理方法分析
|
2月前
|
缓存 监控 NoSQL
Redis 缓存穿透的检测方法与分析
【10月更文挑战第23天】通过以上对 Redis 缓存穿透检测方法的深入探讨,我们对如何及时发现和处理这一问题有了更全面的认识。在实际应用中,我们需要综合运用多种检测手段,并结合业务场景和实际情况进行分析,以确保能够准确、及时地检测到缓存穿透现象,并采取有效的措施加以解决。同时,要不断优化和改进检测方法,提高检测的准确性和效率,为系统的稳定运行提供有力保障。
68 5
|
3月前
|
存储 缓存 索引
从底层数据结构和CPU缓存两方面剖析LinkedList的查询效率为什么比ArrayList低
本文详细对比了ArrayList和LinkedList的查询效率,从底层数据结构和CPU缓存两个方面进行分析。ArrayList基于动态数组,支持随机访问,查询时间复杂度为O(1),且CPU缓存对其友好;而LinkedList基于双向链表,需要逐个节点遍历,查询时间复杂度为O(n),且CPU缓存对其帮助不大。文章还探讨了CPU缓存对数组增删操作的影响,指出缓存主要作用于读取而非修改。通过这些分析,加深了对这两种数据结构的理解。
66 2
|
5月前
|
存储 缓存 关系型数据库
查询缓存效果
【8月更文挑战第14天】
40 2
|
5月前
|
存储 安全 API
阿里云EMR数据湖文件系统问题之JindoFS元数据查询和修改请求的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS元数据查询和修改请求的问题如何解决
|
5月前
|
存储 缓存 NoSQL
微服务复杂查询之缓存策略
微服务复杂查询之缓存策略
|
5月前
|
缓存 NoSQL 网络协议
【Azure Redis 缓存】Azure Redis Cluster 在增加分片数时失败分析
【Azure Redis 缓存】Azure Redis Cluster 在增加分片数时失败分析
|
5月前
|
存储 缓存 NoSQL
【Azure Redis 缓存】当使用Azure Redis 集群服务时候,发生了Moved的几点分析
【Azure Redis 缓存】当使用Azure Redis 集群服务时候,发生了Moved的几点分析
|
5月前
|
缓存 关系型数据库 MySQL
【缓存大对决】Memcached VS MySQL查询缓存,谁才是真正的性能之王?
【8月更文挑战第24天】在现代Web应用中,缓存技术对于提升性能与响应速度至关重要。本文对比分析了Memcached与MySQL查询缓存这两种常用方案。Memcached是一款高性能分布式内存对象缓存系统,支持跨服务器共享缓存,具备灵活性与容错性,但受限于内存大小且不支持数据持久化。MySQL查询缓存内置在MySQL服务器中,简化了缓存管理,特别适用于重复查询,但功能较为单一且扩展性有限。两者各有所长,实际应用中可根据需求单独或结合使用,实现最佳性能优化。
200 0
|
5月前
|
缓存 Java 数据库连接
Hibernate 中的查询缓存是什么?
【8月更文挑战第21天】
49 0