开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13977
Fluid + JindoFS 对HDFS上的数据进行训练加速
内容介绍
一、什么是Fluid + JindoFS ( JindoRuntime )
二、为什么使用JindoRuntime加速HDFS
三、如何使用JindoRuntime
四、演示
一、什么是 Fluid + JindoFS ( JindoRuntime )
Fluid 介绍
CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。
(https://github.com/fiuid-cloudnative/fluid)
➢Fluid 功能概念
Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理。
01 Dataset :数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。
02 Runtime:实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。
03 JindoRuntime 内核基于 JindoFS,是支 撑Datase t数据管理和缓存的执行引擎高效实现。
Fluid JindoRuntime
➢BackGround
云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排。
二、为什么使用 JindoRuntime 加速 HDFS
(1)HDFS 用于 AI 训练场景面临的问题:
➢计算存储分离,数据读取性能较差,无法满足 AI 训练作业的 I0 性能。
➢很多深度学习训练框架并不适配原生 HDFS 接口,大大增加了开发难度。
➢HDFS 集群压力大,甚至存在稳定性问题。
(2)JindoRuntime 功能支持
➢Master 支持 Raft 高可用
➢支持数据亲和性调度(nodeffinity), 选择合适的缓存节点
➢支持数据预加载 DataLoad CRD
➢支持指定 Fuse 用户访问 HDFS
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md
三、如何使用 JindoRuntime
JindoRuntime 加速 HDFS 基本步骤:
➢下载并安装Fluid :
https:githu.com/laliun/alibabacloud-
jindodata/blob/master/docs/jindo_fluid/jindo_fluid_ jindofs_hdfs_introduce.md
➢创建 Dataset
➢创建 JindoRuntime
➢缓存预加载 DataLoad
➢执行 AI 训练作业
四、演示
➢环境要求
1. Kubernetes version> 1.14,支持CSI
2. Golang 1.12+
3. Helm 3
4. Fluid 0.6.0
➢文档链接:https://github.com/aliyun/alibabacloud-
jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md
ISSUE: https://github.com/aliyun/alibabacloud-jindofs/issues
Fluid JindoRuntime使用文档
●快速入门
●安装文档
●加速 OSS上数据
●加速 HDFS.上数据
●加速 S3上数据
●使用参数加密
●数据亲和性调度
●Master 节点亲和性部署
●多 Master 节点部署
●Fuse 客户端节点亲和性部署
●数据容忍污点调度
●Fuse 客户端全局部署
●Dataset手 动扩缩容
●使用 Placement 在同一 个集群上部署多个 dataset.数据源 mount 到根目录下
●数据预加载
●数据缓存和元数据缓存
●问题诊断及处理