数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoFS 缓存加速】第十三讲


主题:Presto 访问 OSS 透明缓存加速


讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • JIndoFS 缓存模式简介
  • Presto 访问 OSS 的缓存加速
  • 实操演示


直播回放链接:(13讲)

https://developer.aliyun.com/live/246923



一、JindoFS 缓存模式简介

JindoFS缓存模式架构图:

image.png

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和OSS上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统,从而实现对后端存储实现缓存加速

二、Presto 访问 OSS 的缓存加速

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件conf/bigboot.cfg

     image.png

  • 修改 sbin/nodes,配置所有storageservice的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安装 jar包:下载最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Presto 节点安装。

     cpjindofs-sdk-${version}.jar $PRESTO_HOME/plugin/hive-hadoop2/

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到Hadoop的core-site.xml中

image.png

     

配置OSS Access Key

  • 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

    image.png 

配置客户端连接缓存服务

客户端通过环境变量 B2SDK_CONF_DIR 定位并加载配置文件 bigboot.cfg

  • 设置环境变量指定配置目录

        export B2SDK_CONF_DIR= /path/to/sdk/conf

  • 在配置目录下添加bigboot.cfg配置文件
     •
    client.storage.rpc.port = 6101

       •client.namespace.rpc.address = <NAMESPACE_ADDRESS>:8101

       •jfs.cache.data-cache.enable = true

image.png

完成以上配置之后,重启 Presto所有服务

hive catalog 即可访问OSS

Presto SQL读取 OSS 上的数据后,会自动缓存到JindoFS缓存系统中,后续访问相同的数据就能够命中缓存


三、实操演示


点击回放链接,直接观看第13讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246923

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
存储 缓存 监控
浅谈对象存储分布式缓存
从整体系统的架构上来考虑降低飞天盘古的请求压力,需要在对象存储业务前端系统服务层面去优化系统全局缓存,提高缓存的命中率。
5062 1
浅谈对象存储分布式缓存
《阿里云 JindoFS+OSS 数据上云实战》下载
为了帮助读者能更全面地了解 JindoFS,我们特地编撰了这本电子书。从架构到场景到实操,全方面解读jindoFS。
141 5
《阿里云 JindoFS+OSS 数据上云实战》下载
|
存储 人工智能 缓存
2022云栖精选—云原生驱动数据抽象 与缓存加速开源技术发展
顾 荣 南京大学 计算机科学与技术系 计算机软件新技术国家重点实验室(南京大学
473 0
2022云栖精选—云原生驱动数据抽象 与缓存加速开源技术发展
《阿里云 JindoFS+OSS 数据上云实战》电子版地址
为了帮助读者能更全面地了解 JindoFS,我们特地编撰了这本电子书。从架构到场景到实操,全方面解读jindoFS。
168 0
《阿里云 JindoFS+OSS 数据上云实战》电子版地址
|
存储 缓存 大数据
对象存储上如何重复利用高速缓存和算子下推(一)
 1 背景基于snowflake,redshift等在云上数仓的开创性工作,基于对象存储构建数据湖/数仓已经成为一股新的潮流,现在的云上数据库通常都采用计算-存储分离的架构,而不再是传统的share-nothing,这是由对象存储的的高弹性,低成本带来的优势,但是有与对象的存储特性,其在单流性能方面的弱点也很明显。目前的常见的场景中,如离线分析,基本都只能采用大规模并发的方式大量调用对象存储的AP
对象存储上如何重复利用高速缓存和算子下推(一)
《阿里云 JindoFS+OSS 数据上云实战》电子版地址下载
为了帮助读者能更全面地了解 JindoFS,我们特地编撰了这本电子书。从架构到场景到实操,全方面解读jindoFS。
176 0
《阿里云 JindoFS+OSS 数据上云实战》电子版地址下载
《阿里云 JindoFS+OSS 数据上云实战》电子版
为了帮助读者能更全面地了解 JindoFS,我们特地编撰了这本电子书。从架构到场景到实操,全方面解读jindoFS。
94 0
《阿里云 JindoFS+OSS 数据上云实战》电子版
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
18天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。