数据湖实操讲解【JindoFS 缓存加速】第十三讲:Presto 访问 OSS 透明缓存加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoFS 缓存加速】第十三讲


主题:Presto 访问 OSS 透明缓存加速


讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • JIndoFS 缓存模式简介
  • Presto 访问 OSS 的缓存加速
  • 实操演示


直播回放链接:(13讲)

https://developer.aliyun.com/live/246923



一、JindoFS 缓存模式简介

JindoFS缓存模式架构图:

image.png

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和OSS上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过JindoFS SDK提供的客户端访问JindoFS文件系统,从而实现对后端存储实现缓存加速

二、Presto 访问 OSS 的缓存加速

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件conf/bigboot.cfg

     image.png

  • 修改 sbin/nodes,配置所有storageservice的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署Jindo SDK

  • 安装 jar包:下载最新的jar包 jindofs-sdk-x.x.x.jar,在所有 Presto 节点安装。

     cpjindofs-sdk-${version}.jar $PRESTO_HOME/plugin/hive-hadoop2/

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到Hadoop的core-site.xml中

image.png

     

配置OSS Access Key

  • 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

    image.png 

配置客户端连接缓存服务

客户端通过环境变量 B2SDK_CONF_DIR 定位并加载配置文件 bigboot.cfg

  • 设置环境变量指定配置目录

        export B2SDK_CONF_DIR= /path/to/sdk/conf

  • 在配置目录下添加bigboot.cfg配置文件
     •
    client.storage.rpc.port = 6101

       •client.namespace.rpc.address = <NAMESPACE_ADDRESS>:8101

       •jfs.cache.data-cache.enable = true

image.png

完成以上配置之后,重启 Presto所有服务

hive catalog 即可访问OSS

Presto SQL读取 OSS 上的数据后,会自动缓存到JindoFS缓存系统中,后续访问相同的数据就能够命中缓存


三、实操演示


点击回放链接,直接观看第13讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246923

相关文章
|
5月前
|
存储 缓存 网络协议
如何使用CDN加速访问OSS存储的图片资源?
通过阿里云CDN加速OSS上的图片和视频资源,可显著提升访问速度、降低带宽成本。CDN将静态资源缓存至离用户最近的节点,减少加载时间,并提供图像处理、缓存优化等功能,提升用户体验。同时,CDN还支持访问数据分析,助力运营决策。本文详解如何通过CDN控制台配置OSS加速,包括添加域名、设置CNAME、配置缓存策略等步骤,帮助您快速实现资源加速。
|
8月前
|
存储 人工智能 Kubernetes
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
|
9月前
|
存储 Kubernetes 对象存储
StrmVol存储卷:如何解锁K8s对象存储海量小文件访问性能新高度?
如何提升海量文件的数据读取速率,对于AI训练集管理、量化回测、时序日志分析等场景尤为重要。阿里云容器服务(ACK))支持StrmVol类型存储卷,基于底层虚拟块设备及内核态文件系统,显著降低海量小文件访问延迟。
|
9月前
|
存储 Kubernetes 对象存储
StrmVol 存储卷:解锁 K8s 对象存储海量小文件访问性能新高度
本文介绍了阿里云容器服务(ACK)支持的StrmVol存储卷方案,旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统(如EROFS)结合,StrmVol显著降低了小文件访问延迟,适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销,以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务,模拟分布式图像数据集加载,测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况,详细使用方法可参考官方文档。
856 144
|
8月前
|
存储 人工智能 测试技术
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
839 34
|
存储 应用服务中间件 开发工具
对象存储OSS-Python设置代理访问请求
通过 Python SDK 配置 nginx 代理地址请求阿里云 OSS 存储桶服务。示例代码展示了如何使用 RAM 账号进行身份验证,并通过代理下载指定对象到本地文件。
537 15
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
5932 16
|
存储 网络安全 对象存储
缺乏中间证书导致通过HTTPS协议访问OSS异常
【10月更文挑战第4天】缺乏中间证书导致通过HTTPS协议访问OSS异常
1019 4
|
分布式计算 DataWorks 数据处理
MaxCompute操作报错合集之UDF访问OSS,配置白名单后出现报错,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
247 2
|
域名解析 Serverless API
函数计算产品使用问题之如何配置自定义域名访问OSS中的内容
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
259 0