文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

数据湖实操讲解【 AI 训练加速】第十八讲：Fluid + JindoFS 对海量小文件的训练加速

2021-07-15 978

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【AI 训练加速】第十八讲

主题：FFluid + JindoFS 对海量小文件的训练加速uid+JindoFS 对 OSS 上数据进行训练加速

讲师：辰山，阿里巴巴计算平台事业部 EMR 技术专家

内容框架：

海量小文件难题
Fluid JindoRuntime 小文件优化
使用 JindoRuntime 加速小文件
演示

直播回放链接：（18讲）

https://developer.aliyun.com/live/247034

一、海量小文件难题

AI 训练场景经常需要处理海量小文件

现状：

RPC 频繁，NameNode 压力大
延时高

延时高
高频访问稳定性

对缓存系统的诉求：

低延时，高 QPS
稳定可靠的访问性能
能够支撑海量文件数

二、Fluid JindoRuntime 小文件优化

JindoRuntime：

高效的元数据缓存：

基于 KV-Store 的元数据组织形式，可支持海量文件数，并且不会占用过多内存资源
高效的元数据查询，并且通过热点缓存进一步加速点查性能
元数据服务（Namespace Service）能够提供低延时、高 QPS 的访问性能

Fuse 客户端缓存

高效的数据组织及索引

针对小文件数据块实现高性能磁盘存储及索引机制
一致性哈希实现数据块的分布式缓存索引，缩短小文件读取的链路

三、使用 JindoRuntime 加速小文件

JindoRuntime 加速小文件基本步骤

下载并安装 Fluid：https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
创建 Dataset
创建 JindoRuntime
缓存预加载 DataLoad
执行 AI 训练作业

小文件加速效果

参考文章：《速度提升 18倍！微博海量深度学习模型训练效率跃升的秘密》 https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy

相比于 HDFS 接口

1机 4 卡可以得到5 倍的加速
2机 8 卡可以得到9 倍的加速
3机 12 卡可以得到18 倍的加速

训练总时长由原来的389小时（16 天）缩短到了16 小时

四、演示

Fluid JindoRuntime 使用

环境要求：

Kubernetes version > 1.14, 支持CSI
Golang 1.12+
Helm 3
Fluid 0.6.0

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE：https://github.com/aliyun/alibabacloud-jindofs/issues

演示：对 HDFS 上海量小文件进行访问加速

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

相关文档链接：

Fluid JindoRuntime 使用文档

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ImageNet 数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

InsightFace数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

⭐点击回放链接，直接观看第18讲视频回放，获取讲师实例讲解：

https://developer.aliyun.com/live/247034

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

文章标签：

开源大数据平台 E-MapReduce

容器

机器学习/深度学习

人工智能

索引

对象存储

Kubernetes

缓存

存储

关键词：

AI训练

AI数据湖

实操AI

AI文件

数据湖jindofs小文件

阿里云E-MapReduce团队

目录

相关文章

阿里云开发者

|

11月前

|

机器学习/深度学习人工智能算法

AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤

本文以一个经典的PyTorch手写数字识别代码示例为引子，深入剖析了简洁代码背后隐藏的深度神经网络（DNN）训练全过程。

阿里云开发者

1581 56 60

PHP小志

|

9月前

|

机器学习/深度学习人工智能 JSON

PHP从0到1实现 AI 智能体系统并且训练知识库资料

本文详解如何用PHP从0到1构建AI智能体，涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度，结合实战案例与系统架构，助你打造懂业务、会进化的专属AI助手。

PHP小志

1372 6 6

游客fd4e6dyhbdhyy

|

9月前

|

人工智能

新手小白一枚，想训练一个专属的题库AI模型，求大佬带

想训练一个专属的题库AI模型

游客fd4e6dyhbdhyy

514 8 8

向量引擎

|

10月前

|

机器学习/深度学习人工智能数据安全/隐私保护

阿里云 Qwen3 全栈 AI 模型：技术解析、开发者实操指南与 100 万企业落地案例

阿里云发布Qwen3全栈AI体系，推出Qwen3-Max、Qwen3-Next等七大模型，性能全球领先，开源生态超6亿次下载。支持百万级上下文、多模态理解，训练成本降90%，助力企业高效落地AI。覆盖制造、金融、创作等场景，提供无代码与代码级开发工具，共建超级AI云生态。

向量引擎

1899 6 7

AI研究者手札

|

12月前

|

机器学习/深度学习人工智能数据可视化

基于YOLOv8的AI虫子种类识别项目｜完整源码数据集+PyQt5界面+完整训练流程+开箱即用！

本项目基于YOLOv8与PyQt5开发，实现虫子种类识别，支持图片、视频、摄像头等多种输入方式，具备完整训练与部署流程，开箱即用，附带数据集与源码，适合快速搭建高精度昆虫识别系统。

AI研究者手札

784 5 5

基于YOLOv8的AI虫子种类识别项目｜完整源码数据集+PyQt5界面+完整训练流程+开箱即用！

阿里云瑶池数据库_

|

11月前

|

存储人工智能分布式计算

数据不用搬，AI直接炼！阿里云AnalyticDB AI数据湖仓一站式融合AI+BI

阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版（以下简称ADB）诞生于高性能实时数仓时代，实现了PB级结构化数据的高效处理和分析。在前几年，为拥抱大数据的浪潮，ADB从传统数仓拓展到数据湖仓，支持Paimon/Iceberg/Delta Lake/Hudi湖格式，为开放的数据湖提供数据库级别的性能、可靠性和管理能力，从而更好地服务以SQL为核心的大规模数据处理和BI分析，奠定了坚实的湖仓一体基础。

阿里云瑶池数据库_

1952 2 2

汀丶人工智能

|

12月前

|

机器学习/深度学习人工智能 API

AI-Compass LLM训练框架生态：整合ms-swift、Unsloth、Megatron-LM等核心框架，涵盖全参数/PEFT训练与分布式优化

AI-Compass LLM训练框架生态：整合ms-swift、Unsloth、Megatron-LM等核心框架，涵盖全参数/PEFT训练与分布式优化

汀丶人工智能

891 9 9

啦啦啦191

|

11月前

|

人工智能自然语言处理 Java

面向 Java 开发者：2024 最新技术栈下 Java 与 AI/ML 融合的实操详尽指南

Java与AI/ML融合实践指南：2024技术栈实战本文提供了Java与AI/ML融合的实操指南，基于2024年最新技术栈（Java 21、DJL 0.27.0、Spring Boot 3.2等）。主要内容包括：环境配置：详细说明Java 21、Maven依赖和核心技术组件的安装步骤图像分类服务：通过Spring Boot集成ResNet-50模型，实现REST接口图像分类功能智能问答系统：展示基于RAG架构的文档处理与向量检索实现性能优化：利用虚拟线程、GraalVM等新技术提升AI服务性能文

啦啦啦191

963 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

分布式快照算法: Chandy-Lamport

现代流式计算的基石：Google DataFlow

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

漫谈分布式计算框架

阿里封神-大数据处理技术漫谈

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

相关课程

更多

视觉AI技术体系及趋势概述

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

相关电子书

更多

AI 原生应用开源开发者沙龙·上海站电子书

AI原生应用开发实战营—Serverless AI专场·北京

阿里云 AI 原生应用开发实战营

相关实验场景

更多

通过OSS加速器加速AI数据传输

基于阿里云企业网盘搭建AI知识库

基于dify快速构建一款定制化AI工具

基于ECS部署一款规划行程的AI Agent

基于ECS部署DeepSeek个人专属AI网站

通过云原生API网关进行AI缓存

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！