数据湖实操讲解【 AI 训练加速】第十七讲:Fluid + JindoFS 对 HDFS 上的数据进行训练加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【AI 训练加速】第十七讲


主题:FFluid + JindoFS 对 HDFS 上的数据进行训练加速luid+JindoFSOSS 上数据进行训练加速

讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • 什么是 Fluid + JindoFS (JindoRuntime)
  • 为什么使用 JindoRuntime 加速 HDFS
  • 如何使用 JindoRuntime
  • 演示


直播回放链接:(17讲)

https://developer.aliyun.com/live/247034

一、什么是 Fluid + JindoFS (JindoRuntime)

Fluid基础介绍

CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。


参考网址:https://github.com/fluid-cloudnative/fluid

image.png

Fluid 功能概念

 Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理

  • Dataset:  数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。
  • Runtime:  实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。
  • JindoRuntime:  内核基于 JindoFS ,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

Fluid JindoRuntime

背景:云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排

image.png

二、为什么使用 JindoRuntime 加速 HDFS

HDFS 存储与 AI 训练

image.png

HDFS 用于 AI 训练场景面临的问题

  • 计算存储分离,数据读取性能较差,无法满足 AI 训练作业的 IO 性能
  • 很多深度学习训练框架并不适配原生 HDFS 接口,大大增加了开发难度
  • HDFS 集群压力大,甚至存在稳定性问题


Fluid JindoRuntime 实现 HDFS 访问加速

image.png

JindoRuntime 功能支持

  • Master 支持 Raft 高可用
  • 支持数据亲和性调度(nodeAffinity),选择合适的缓存节点
  • 支持数据预加载 DataLoad CRD
  • 支持指定 Fuse 用户访问 HDFS


参考网址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

三、如何使用 JindoRuntime

JindoRuntime 加速 HDFS 基本步骤

  • 下载并安装 Fluidhttps://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
  • 创建 Dataset
  • 创建 JindoRuntime
  • 缓存预加载 DataLoad
  • 执行 AI 训练作业

四、演示

Fluid JindoRuntime 使用

环境要求:

  • Kubernetes version > 1.14, 支持CSI
  • Golang 1.12+
  • Helm 3
  • Fluid 0.6.0


参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues

image.png

演示:对 HDFS 上数据进行访问加速

参考文档:https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md

image.png

相关文档链接:

  • Fluid  JindoRuntime 使用文档

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

  • 拥抱云原生,Fluid结合JindoFS:加速 HDFS使用指南

https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md

  • ImageNet 数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

  • InsightFace数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md



点击回放链接,直接观看第17讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247034




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关文章
|
7月前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
阿里云 Qwen3 全栈 AI 模型:技术解析、开发者实操指南与 100 万企业落地案例
阿里云发布Qwen3全栈AI体系,推出Qwen3-Max、Qwen3-Next等七大模型,性能全球领先,开源生态超6亿次下载。支持百万级上下文、多模态理解,训练成本降90%,助力企业高效落地AI。覆盖制造、金融、创作等场景,提供无代码与代码级开发工具,共建超级AI云生态。
1439 6
|
8月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
人工智能 Python
2025自学编程实操指南第一课面向AI编程
2025自学编程实操指南第一课面向AI编程,第一个实践案例:贪吃蛇游戏
|
8月前
|
人工智能 自然语言处理 Java
面向 Java 开发者:2024 最新技术栈下 Java 与 AI/ML 融合的实操详尽指南
Java与AI/ML融合实践指南:2024技术栈实战 本文提供了Java与AI/ML融合的实操指南,基于2024年最新技术栈(Java 21、DJL 0.27.0、Spring Boot 3.2等)。主要内容包括: 环境配置:详细说明Java 21、Maven依赖和核心技术组件的安装步骤 图像分类服务:通过Spring Boot集成ResNet-50模型,实现REST接口图像分类功能 智能问答系统:展示基于RAG架构的文档处理与向量检索实现 性能优化:利用虚拟线程、GraalVM等新技术提升AI服务性能 文
792 0
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY3 - 更热门的多模态交互案例带练,实操掌握AI应用开发
本文章旨在帮助读者了解并掌握大模型多模态技术的实际应用,特别是如何构建基于多模态的实用场景。文档通过几个具体的多模态应用场景,如拍立淘、探一下和诗歌相机,展示了这些技术在日常生活中的应用潜力。
2973 20
|
存储 人工智能 Kubernetes
MiniMax云上AI数据湖最佳实践
本简介介绍MiniMax云上AI数据湖的最佳实践。MiniMax成立于2021年,专注于通用人工智能领域,提供ToB和C端产品。面对每日3万亿token、2000万张图片及7万小时语音数据的处理需求,MiniMax基于阿里云构建了稳定灵活的基础设施,采用多云策略实现全球化部署。通过引入Kubernetes、Ray等技术,优化了多模态数据处理效率,并利用对象存储与数据湖技术降低成本。此外,与阿里云合作开发边缘缓存方案,提升跨地域数据传输效率。主讲人:阿里云弹性计算技术专家高庆端。
770 10
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
451 3
|
人工智能 前端开发 Java
【实操】Spring Cloud Alibaba AI,阿里AI这不得玩一下(含前后端源码)
本文介绍了如何使用 **Spring Cloud Alibaba AI** 构建基于 Spring Boot 和 uni-app 的聊天机器人应用。主要内容包括:Spring Cloud Alibaba AI 的概念与功能,使用前的准备工作(如 JDK 17+、Spring Boot 3.0+ 及通义 API-KEY),详细实操步骤(涵盖前后端开发工具、组件选择、功能分析及关键代码示例)。最终展示了如何成功实现具备基本聊天功能的 AI 应用,帮助读者快速搭建智能聊天系统并探索更多高级功能。
4847 2
【实操】Spring Cloud Alibaba AI,阿里AI这不得玩一下(含前后端源码)
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
314 4