Fluid + JindoFS 对 HDFS 上的数据进行训练加速 | 学习笔记

简介: 快速学习Fluid + JindoFS 对 HDFS 上的数据进行训练加速。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲Fluid + JindoFS 对 HDFS 上的数据进行训练加速】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13977


Fluid + JindoFS 对HDFS上的数据进行训练加速

 

内容介绍

一、什么是Fluid + JindoFS ( JindoRuntime )

二、为什么使用JindoRuntime加速HDFS

三、如何使用JindoRuntime

四、演示

 

一、什么是 Fluid + JindoFS ( JindoRuntime )

Fluid 介绍

CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。

(https://github.com/fiuid-cloudnative/fluid)

Fluid 功能概念

Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理。

01 Dataset :数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。

02 Runtime:实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。

03 JindoRuntime 内核基于 JindoFS,是支 撑Datase t数据管理和缓存的执行引擎高效实现。

Fluid JindoRuntime

BackGround

云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排。

 

二、为什么使用 JindoRuntime 加速 HDFS

1HDFS 用于 AI 训练场景面临的问题:

➢计算存储分离,数据读取性能较差,无法满足 AI 训练作业的 I0 性能。

➢很多深度学习训练框架并不适配原生 HDFS 接口,大大增加了开发难度。

HDFS 集群压力大,甚至存在稳定性问题。

2JindoRuntime 功能支持

Master 支持 Raft 高可用

➢支持数据亲和性调度(nodeffinity), 选择合适的缓存节点

➢支持数据预加载 DataLoad CRD

➢支持指定 Fuse 用户访问 HDFS

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md

 

三、如何使用 JindoRuntime

JindoRuntime 加速 HDFS 基本步骤:

➢下载并安装Fluid :

https:githu.com/laliun/alibabacloud-

jindodata/blob/master/docs/jindo_fluid/jindo_fluid_ jindofs_hdfs_introduce.md

➢创建 Dataset

➢创建 JindoRuntime

➢缓存预加载 DataLoad

➢执行 AI 训练作业

 

四、演示

➢环境要求

1. Kubernetes version> 1.14,支持CSI

2. Golang 1.12+

3. Helm 3

4. Fluid 0.6.0

➢文档链接:https://github.com/aliyun/alibabacloud-

jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md

ISSUE: https://github.com/aliyun/alibabacloud-jindofs/issues

Fluid JindoRuntime使用文档

●快速入门

●安装文档

●加速 OSS上数据

●加速 HDFS.上数据

●加速 S3上数据

●使用参数加密

●数据亲和性调度

Master 节点亲和性部署

●多 Master 节点部署

Fuse 客户端节点亲和性部署

●数据容忍污点调度

Fuse 客户端全局部署

Dataset手 动扩缩容

●使用 Placement 在同一 个集群上部署多个 dataset.数据源 mount 到根目录下

●数据预加载

●数据缓存和元数据缓存

●问题诊断及处理

 

相关文章
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
57 4
|
2月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
44 2
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
110 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
52 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
60 0
|
4月前
|
SQL 存储 分布式计算
HDFS数据(跨集群)迁移
HDFS数据(跨集群)迁移
|
5月前
|
分布式计算 Hadoop
|
4月前
|
安全 数据安全/隐私保护
阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同
阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同
|
5月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
6月前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
278 3

热门文章

最新文章