开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:Fluid十JindoFS 对 OSS 上的数据进行训练加速】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13976
Fluid十JindoFS 对 OSS 上的数据进行训练加速课时
内容介绍
一、Fluid 介绍
二、Fluid JindoRuntime
三、使用 Fluid JindoRuntime 加速 OSS 训练
四、演示
一、Fluid 介绍
Fluid 介绍
CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI 应用等。
(https://github.com/fiuid-cloudnative/fluid)
➢Fluid 核心理念
01提供云平台数据集抽象的原生支持: 数据密集型应用所需基础支撑能力功能化,实现数据高效访问并降低多维成本。
02基于容器调度管理的数据集编排: 通过数据集缓存 引擎与 Kubemeles 容器调度和扩缩容能力的相互配合,实现数据集可迁移性。
03面向云上数据本地化的应用调度: Kubernetes 调度器通过与缓存引擎交互获得节点的数据缓存信息,将使用该数据的应用以透明的方式调度到包含数据缓存的节点,最大化缓存本地性的优势。
➢Fluid 功能概念
Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理。
01 Dataset:数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。
02 Runtime:实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。
03 JindoRuntime:内核基于 JindoFS,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。
二、Fluid JindoRuntime
➢BackGround
云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排。
➢Why Fluid JindoRuntime
1、数据集和加速引擎生命周期管理
2、数据集智能部署和使用
3、数据集可观测和水平扩展
➢开箱即用,加速 OSS/HDFS/S3上数据
➢支持原数据数据预热、原子性 cache
➢小文件缓存优化,大大提高小文件训练场景性能
➢Fuse/ Posix接口支持
JindoRuntime 提供对 OSS 对象存储服务和 HDFS 的访问和缓存加速能力,并且利用 FUSE 的 POSI X 文件系统接口实现可以像本地磁盘一样轻松使用 OSS 上的海量文件。
三、使用 Fluid JindoRuntime 加速 OSS 训练
➢ImageNet 数据集加速测试
使用 lmageNet 数据集基于 Kubernetes 集群并使用 Arena 在此数据集上训练ResNet-50 模型,基于 JindoFS 的 JindoRuntime 在开启本地缓存的情况下性能大幅度优于开源 OSSFS,训练耗时缩短了76%。
➢InsightFace 数据集加速测试
使用InsightFace 数据集基于 Kubernetes 集群进行小文件场景的训练测试(包含约380万个小文件,每个文件大小约为23KB),基于元数据缓存和数据缓存策略,在相同集群和带宽的OSS bucket 下,基于 JindoRuntime 训练时间大大缩短。
四、演示
➢环境要求
1. Kubernetes version> 1.14,支持CSI
2. Golang 1.12+
3. Helm 3
4. Fluid 0.6.0
➢文档链接: https://github.com/aliyun/alibabacloud-
jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md
ISSUE: https://github.com/aliyun/alibabacloud-jindofs/issues
Fluid JindoRuntime 使用文档
●快速入门
●安装文档
●加速 OSS 上数据
●加速 HDFS. 上数据
●加速 S3上数据
●使用参数加密
●数据亲和性调度
●Master 节点亲和性部署
●多 Master 节点部署
●Fuse客户端节点亲和性部署
●数据容忍污点调度
●Fuse 客户端全局部署
●Dataset 手动扩缩容
●使用 Placement 在同一个集群上部署多个 dataset.数据源 mount 到根目录下
●数据预加载
●数据缓存和元数据缓存
●问题诊断及处理
➢演示:对 OSS 上数据进行加速访问
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_ fluid/common/jindo_ fluid _quickStart.md
相关文档链接
➢Fluid JindoRuntime 使用文档
https://github. com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_ fluid/jindo_fluid _overview.md
➢ImageNet 数据集加速测试
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_ fluid_jindo _fluid _resnet50_ example.md
➢InsightFace 数据集加速测试
htps://github.com/aliyun/alibabacloud jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_ performance _report.md