数据湖实操讲解【JindoFS 缓存加速】第十五讲:云上计算云下数据:HDFS 缓存加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【JindoFS 缓存加速】第十五讲


主题:云上计算云下数据:HDFS 缓存加速


讲师:抚月,阿里巴巴计算平台事业部 开源大数据平台 技术专家


内容框架:

  • 背景介绍
  • 功能介绍
  • 使用方法
  • 实操演示


直播回放链接:(15讲)

https://developer.aliyun.com/live/246996

一、背景介绍

问题和挑战:

      传统的大数据服务,通常是自己部署一套 Hive、Spark、HDFS 在线下的 IDC 机房。随着云计算越来越成熟,带来弹性扩容 运维方便 节省成本等诸多优点,越来越多企业开始将大数据平台搬到云上。首先他们会将 Hive、Spark 等计算服务搬到云上,在云上执行计算。云下 IDC 的 HDFS 集群存在历史数据;有些客户存在敏感数据,倾向于继续保留于云下;或者因历史原因保留在其他云厂商上,而 HDFS 集群数据搬到云上需要时间,这时候就会涉及到跨机房/跨云访问 HDFS 数据。

      云上访问云下 HDFS 数据存在以下问题:

  • 集群之间存在网络延时和带宽限制
  • 作业突发流量 核心集群磁盘/网络被打满

     为解决以上问题,必须引入 HDFS 缓存加速。

image.png

二、功能介绍


在计算集群上部署一套 jindofs,jindofs 具有分布式缓存的能力:

  • 利用计算集群闲置资源(云盘/本地盘/内存)进行数据缓存,加速计算
  • 进行流量控制,避免计算集群占用核心集群过多带宽

image.png

JindoFS 缓存模式架构图:

image.png

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理
  • Jindo Storage Service:用户数据的管理包含本地数据的管理和 OSS 上数据的管理
  • Jindo SDK 客户端:所有上层计算引擎通过 JindoFS SDK 提供的客户端访问 JindoFS 文件系统,从而实现对后端存储实现缓存加速


     计算服务通过 Jindo SDK 访问数据,Jindo SDK 从 Jindo Namespace Service 查询缓存位置信息,然后向集群中的 Jindo Storage Service 读取缓存数据,如果命中缓存直接返回;如果没有命中缓存,则从 OSS 读取数据,并将缓存写入 Jindo Storage Service,供下次使用。

三、使用方法

部署缓存服务

  • 下载最新 Releaseb2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上
  • 修改配置文件 conf/bigboot.cfg

     image.png

  • 修改 sbin/nodes,配置所有 storageservice 的节点列表
  • 启动所有服务 ./sbin/start-service.sh


参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md


部署Jindo SDK

  • 安装 jar 包:下载最新的 jar 包 jindofs-sdk-x.x.x.jar,在所有 Hadoop 节点安装。

     cp ./jindofs-sdk-*.jar <HADOOP_HOME>/share/hadoop/hdfs/lib/jindofs-sdk.jar

  • namespace 地址配置到 Hadoop core-site.xml 中。

  image.png

通过 JindoFS 加速访问 HDFS

      我们通过jfs://<namespace>/ 路径访问, 跟直接访问远端HDFS路径得到一样的数     据,并且获得了加速效果。

     image.png

     image.png

四、实操演示


相关资源:

  • JindoFS SDK

https://github.com/aliyun/alibabacloud-         jindofs/blob/master/docs/jindofs_sdk_download.md

  • JindoFS 缓存服务

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md


点击回放链接,直接观看第15讲视频回放,获取讲师实例讲解:

https://developer.aliyun.com/live/246996




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关文章
|
缓存 C++
计算属性缓存 vs 方法
计算属性缓存 vs 方法
|
存储 缓存
第21节: Vue3 计算缓存与方法
第21节: Vue3 计算缓存与方法
216 0
|
9月前
|
SQL 存储 运维
别让运维数据“各过各的”:聊聊数据湖怎么搭,才能不成“沼泽”
别让运维数据“各过各的”:聊聊数据湖怎么搭,才能不成“沼泽”
331 0
|
7月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
8月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
354 2
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
73248 79
|
存储 缓存 分布式计算
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
309 1
|
缓存 运维 Devops
阿里云云效操作报错合集之在构建过程中,Docker尝试从缓存中获取某个文件(或计算缓存键)时遇到了问题,该如何处理
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。