Fluid十JindoFS 对 OSS 上的数据进行训练加速 | 学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 快速学习Fluid十JindoFS 对 OSS 上的数据进行训练加速。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲Fluid十JindoFS 对 OSS 上的数据进行训练加速】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13976


Fluid十JindoFS 对 OSS 上的数据进行训练加速课时

 

内容介绍

一、Fluid 介绍

二、Fluid JindoRuntime

三、使用 Fluid JindoRuntime 加速 OSS 训练

四、演示

 

一、Fluid 介绍

Fluid 介绍

CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI 应用等。

(https://github.com/fiuid-cloudnative/fluid)

Fluid 核心理念

01提供云平台数据集抽象的原生支持:  数据密集型应用所需基础支撑能力功能化,实现数据高效访问并降低多维成本。

02基于容器调度管理的数据集编排: 通过数据集缓存 引擎与 Kubemeles 容器调度和扩缩容能力的相互配合,实现数据集可迁移性。

03面向云上数据本地化的应用调度:  Kubernetes 调度器通过与缓存引擎交互获得节点的数据缓存信息,将使用该数据的应用以透明的方式调度到包含数据缓存的节点,最大化缓存本地性的优势。

Fluid 功能概念

Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理。

01 Dataset:数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。

02 Runtime:实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。

03 JindoRuntime:内核基于 JindoFS,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

 

二、Fluid JindoRuntime

BackGround

云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排。

Why Fluid JindoRuntime

1、数据集和加速引擎生命周期管理

2、数据集智能部署和使用

3、数据集可观测和水平扩展

➢开箱即用,加速 OSS/HDFS/S3上数据

➢支持原数据数据预热、原子性 cache

➢小文件缓存优化,大大提高小文件训练场景性能

Fuse/ Posix接口支持

JindoRuntime 提供对 OSS 对象存储服务和 HDFS 的访问和缓存加速能力,并且利用 FUSE POSI X 文件系统接口实现可以像本地磁盘一样轻松使用 OSS 上的海量文件。


三、使用 Fluid JindoRuntime 加速 OSS 训练

ImageNet 数据集加速测试

使用 lmageNet 数据集基于 Kubernetes 集群并使用 Arena 在此数据集上训练ResNet-50 模型,基于 JindoFS JindoRuntime 在开启本地缓存的情况下性能大幅度优于开源 OSSFS,训练耗时缩短了76%

InsightFace 数据集加速测试

使用InsightFace 数据集基于 Kubernetes 集群进行小文件场景的训练测试(包含约380万个小文件,每个文件大小约为23KB),基于元数据缓存和数据缓存策略,在相同集群和带宽的OSS bucket 下,基于 JindoRuntime 训练时间大大缩短。

 

四、演示

➢环境要求

1. Kubernetes version> 1.14,支持CSI

2. Golang 1.12+

3. Helm 3

4. Fluid 0.6.0

➢文档链接: https://github.com/aliyun/alibabacloud-

jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md

ISSUE: https://github.com/aliyun/alibabacloud-jindofs/issues

Fluid JindoRuntime 使用文档

●快速入门

●安装文档

●加速 OSS 上数据

●加速 HDFS. 上数据

●加速 S3上数据

●使用参数加密

●数据亲和性调度

Master 节点亲和性部署

●多 Master 节点部署

Fuse客户端节点亲和性部署

●数据容忍污点调度

Fuse 客户端全局部署

Dataset 手动扩缩容

●使用 Placement 在同一个集群上部署多个 dataset.数据源 mount 到根目录下

●数据预加载

●数据缓存和元数据缓存

●问题诊断及处理

➢演示:OSS 上数据进行加速访问

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_ fluid/common/jindo_ fluid _quickStart.md

相关文档链接

Fluid JindoRuntime 使用文档

https://github. com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_ fluid/jindo_fluid _overview.md

ImageNet 数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_ fluid_jindo _fluid _resnet50_ example.md

InsightFace 数据集加速测试

htps://github.com/aliyun/alibabacloud jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_ performance _report.md

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
1月前
|
存储 关系型数据库 分布式数据库
PolarDB常见问题之PolarDB冷存数据到OSS之后恢复失败如何解决
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
4月前
|
存储 SQL 分布式计算
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
49 1
|
1月前
|
存储 API 开发工具
oss数据解密与下载
阿里云OSS提供服务器端加密(SSE-OSS/SSE-KMS)功能,保证静态数据安全。下载加密对象时,OSS自动解密并返回原始内容。确保下载请求者有相应权限,尤其是使用SSE-KMS时。可通过SDK、图形化工具或编程框架集成下载,发起请求时,OSS自动处理解密,客户端接收解密后的数据。权限、下载方式选择及请求发起是关键步骤。
10 1
|
3月前
|
SQL 存储 分布式计算
Hologres实时湖仓能力增强,挑战5分钟加速分析OSS数据
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
|
3月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
4月前
|
存储 监控 开发工具
oss储存数据
oss储存数据
92 1
|
4月前
|
存储 对象存储
OSS冷热数据分离
OSS冷热数据分离
|
5月前
|
存储 SQL 分布式计算
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
数据计算MaxCompute读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?
57 2
|
7月前
|
存储 机器学习/深度学习 分布式计算
热门Stable Diffusion模型库快速转存至个人OSS与加载训练
本实验介绍如何使用阿里云在线迁移服务,将热门模型库从国内镜像站点转存到个人对象存储OSS空间,并且可将OSS Bucket里的模型挂载到FC函数计算或PAI平台进行推理和训练。
254 0
|
7月前
|
存储 文件存储 对象存储
对象存储OSS快速上手——数据上传
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何在对象存储OSS的控制台,进行简单的数据存、查、删等操作。
272 0