文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

数据湖实操讲解【AI 训练加速】第十六讲：Fluid + JindoFS 对 OSS 上数据进行训练加速

2021-07-07 1399

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【AI 训练加速】第十六讲

主题：FFluid + JindoFS 对 OSS 上数据进行训练加速luid+JindoFS 对 OSS 上数据进行训练加速

讲师：扬礼，阿里巴巴计算平台事业部开源大数据平台开发工程师

内容框架：

Fluid 介绍
Fluid JindoRuntime
使用Fluid JindoRuntime 加速 OSS训练
演示

直播回放链接：（16讲）

https://developer.aliyun.com/live/247018

一、Fluid 介绍

CNCF Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI应用等。

参考网址：

https://github.com/fluid-cloudnative/fluid

Fluid核心理念

提供云平台数据集抽象的原生支持：数据密集型应用所需基础支撑能力功能化，实现数据高效访问并降低多维成本。
基于容器调度管理的数据集编排：通过数据集缓存引擎与Kubernetes容器调度和扩缩容能力的相互配合，实现数据集可迁移性。
面向云上数据本地化的应用调度：Kubernetes调度器通过与缓存引擎交互获得节点的数据缓存信息，将使用该数据的应用以透明的方式调度到包含数据缓存的节点，最大化缓存本地性的优势。

Fluid功能概念

Fluid不是全存储加速和管理，而是应用使用的数据集加速和管理

Dataset: 数据集是逻辑上相关的一组数据的集合，一致的文件特性，会被同一运算引擎使用。
Runtime: 实现数据集安全性，版本管理和数据加速等能力的执行引擎的接口，定义了一系列生命周期的方法。
JindoRuntime: 内核基于 JindoFS ，是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

二、Fluid JindoRuntime

背景：云原生环境中使用JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排

痛点：

数据集和加速引擎生命周期管理
数据集智能部署和使用
数据集可观测和水平扩展

优势：

开箱即用，加速 OSS/HDFS/S3 上数据

支持元数据数据预热、原子性cache
小文件缓存优化，大大提高小文件训练场景性能
Fuse/ Posix 接口支持：JindoRuntime提供对OSS对象存储服务和 HDFS 的访问和缓存加速能力，并且利用 FUSE的 POSIX 文件系统接口实现可以像本地磁盘一样轻松使用OSS 上的海量文件

三、使用 Fluid JindoRuntime 加速 OSS 训练

ImageNet 数据集加速测试：

使用 ImageNet 数据集基于Kubernetes 集群并使用 Arena 在此数据集上训练ResNet-50 模型，基于JindoFS 的JindoRuntime 在开启本地缓存的情况下性能大幅度优于开源OSSFS，训练耗时缩短了76%。

参考网址：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

InsightFace 数据集加速测试：

使用 InsightFace 数据集基于Kubernetes 集群进行小文件场景的训练测试（包含约380万个小文件，每个文件大小约为23KB），基于元数据缓存和数据缓存策略，在相同集群和带宽的OSSbucket下，基于JindoRuntime 训练时间大大缩短。

参考网址：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

四、演示

Fluid JindoRuntime 使用

环境要求：

Kubernetes version > 1.14, 支持CSI
Golang 1.12+
Helm 3
Fluid 0.6.0

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE：https://github.com/aliyun/alibabacloud-jindofs/issues

演示：对 OSS上数据进行加速访问

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

⭐点击回放链接，直接观看第15讲视频回放，获取讲师实例讲解：

https://developer.aliyun.com/live/247018

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

文章标签：

开源大数据平台 E-MapReduce

对象存储

容器服务Kubernetes版

容器

Cloud Native

计算机视觉

人工智能

对象存储

Kubernetes

调度

缓存

存储

大数据

关键词：

AI训练

AI数据湖

AI数据

数据湖数据

对象存储数据

阿里云E-MapReduce团队

目录

相关文章

阿里云云原生

|

9月前

|

消息中间件人工智能 Kafka

AI 时代的数据通道：云消息队列 Kafka 的演进与实践

云消息队列 Kafka 版通过在架构创新、性能优化与生态融合等方面的突破性进展，为企业构建实时数据驱动的应用提供了坚实支撑，持续赋能客户业务创新。

阿里云云原生

809 75 114

阿里云云原生

|

10月前

|

消息中间件人工智能运维

事件驱动重塑 AI 数据链路：阿里云 EventBridge 发布 AI ETL 新范式

“一个简单的数据集成任务，开始时总是轻松愉快的，但随着业务扩展，数据源越来越多，格式越来越乱，整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差，这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点，在2025云栖大会期间，阿里云重磅发布了事件驱动 AI ETL 新范式，其核心产品 EventBridge 通过深度集成 AI 能力，为开发者提供了一套革命性的解决方案，旨在彻底改变 AI 时代的数据准备与处理方式。

阿里云云原生

1029 75 105

阿里云云原生

|

9月前

|

人工智能运维 Java

Spring AI Alibaba Admin 开源！以数据为中心的 Agent 开发平台

Spring AI Alibaba Admin 正式发布！一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测，助力企业高效构建可信赖的 AI Agent 应用。开源共建，现已上线！

阿里云云原生

8314 122 158

云技术达人

|

11月前

|

SQL 人工智能 JSON

Flink 2.1 SQL：解锁实时数据与AI集成，实现可扩展流处理

本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。

云技术达人

649 0 0

Flink 2.1 SQL：解锁实时数据与AI集成，实现可扩展流处理

欲揽西江月

|

10月前

|

机器学习/深度学习人工智能自然语言处理

迁移学习：让小数据也能驱动AI大模型

迁移学习：让小数据也能驱动AI大模型

欲揽西江月

504 99 99

云渠道商yunshuguoji

|

11月前

|

存储监控调度

阿里云对象存储OSS之间进行数据转移教程

讲解如何在阿里云对象存储OSS之间进行跨账号、跨地域、以及同地域内的数据迁移，包括数据迁移之前的准备工作和实施数据迁移以及一些后续操作

云渠道商yunshuguoji

2205 0 0

Echo_Wish

|

11月前

|

机器学习/深度学习人工智能搜索推荐

AI+基因数据：健康诊断的“未来体检报告”来了

AI+基因数据：健康诊断的“未来体检报告”来了

Echo_Wish

392 6 6

basu2023

|

9月前

|

机器学习/深度学习人工智能监控

拔俗AI智能营运分析助手软件系统：企业决策的"数据军师"，让经营从"拍脑袋"变"精准导航"

AI智能营运分析助手打破数据孤岛，实时整合ERP、CRM等系统数据，自动生成报表、智能预警与可视化决策建议，助力企业从“经验驱动”迈向“数据驱动”，提升决策效率，降低运营成本，精准把握市场先机。（238字）

basu2023

291 0 0

basu2023

|

9月前

|

传感器人工智能监控

拔俗多模态跨尺度大数据AI分析平台：让复杂数据“开口说话”的智能引擎

在数字化时代，多模态跨尺度大数据AI分析平台应运而生，打破数据孤岛，融合图像、文本、视频等多源信息，贯通微观与宏观尺度，实现智能诊断、预测与决策，广泛应用于医疗、制造、金融等领域，推动AI从“看懂”到“会思考”的跃迁。

basu2023

719 0 0

basu2023

|

9月前

|

机器学习/深度学习人工智能算法

拔俗AI智能营运分析助手：用技术破解企业“数据焦虑”

AI智能营运分析助手破解企业“数据多却难洞察”难题，通过自动化集成、定制化模型、可视化输出，助力中小企业实现低门槛数据驱动决策，提升营运效率与精准度。

basu2023

871 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

JindoFS解析 - 云上大数据高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

5W1H(六何分析法)全景洞察大数据

助力云上开源生态 - 阿里云开源大数据平台的发展

玩转阿里云EMR三部曲-中级篇集成自有服务

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

EMR Serverless StarRocks Stella 能力解读，从海量广告素材、游戏聊天数据到金融 RAG 的一站式 SQL 实践

阿里云 EMR Serverless StarRocks（Stella 2.2.0）发布：多模态处理与分析闭环，内表与湖表统一检索

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

相关课程

更多

通义灵码2.0 AI 编码训练营

AI应用开发

基于Gradio的AI应用搭建实践课

对象存储OSS的云上可观测能力最佳实践

基于FC+NAS部署SD服务，并从OSS模型库下载模型文件

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

相关电子书

更多

OSS运维进阶实战手册

《OSS运维基础实战手册》

OSS运维基础实战手册

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！