文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

数据湖实操讲解【 AI 训练加速】第十八讲：Fluid + JindoFS 对海量小文件的训练加速

2021-07-15 991

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【AI 训练加速】第十八讲

主题：FFluid + JindoFS 对海量小文件的训练加速uid+JindoFS 对 OSS 上数据进行训练加速

讲师：辰山，阿里巴巴计算平台事业部 EMR 技术专家

内容框架：

海量小文件难题
Fluid JindoRuntime 小文件优化
使用 JindoRuntime 加速小文件
演示

直播回放链接：（18讲）

https://developer.aliyun.com/live/247034

一、海量小文件难题

AI 训练场景经常需要处理海量小文件

现状：

RPC 频繁，NameNode 压力大
延时高

延时高
高频访问稳定性

对缓存系统的诉求：

低延时，高 QPS
稳定可靠的访问性能
能够支撑海量文件数

二、Fluid JindoRuntime 小文件优化

JindoRuntime：

高效的元数据缓存：

基于 KV-Store 的元数据组织形式，可支持海量文件数，并且不会占用过多内存资源
高效的元数据查询，并且通过热点缓存进一步加速点查性能
元数据服务（Namespace Service）能够提供低延时、高 QPS 的访问性能

Fuse 客户端缓存

高效的数据组织及索引

针对小文件数据块实现高性能磁盘存储及索引机制
一致性哈希实现数据块的分布式缓存索引，缩短小文件读取的链路

三、使用 JindoRuntime 加速小文件

JindoRuntime 加速小文件基本步骤

下载并安装 Fluid：https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
创建 Dataset
创建 JindoRuntime
缓存预加载 DataLoad
执行 AI 训练作业

小文件加速效果

参考文章：《速度提升 18倍！微博海量深度学习模型训练效率跃升的秘密》 https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy

相比于 HDFS 接口

1机 4 卡可以得到5 倍的加速
2机 8 卡可以得到9 倍的加速
3机 12 卡可以得到18 倍的加速

训练总时长由原来的389小时（16 天）缩短到了16 小时

四、演示

Fluid JindoRuntime 使用

环境要求：

Kubernetes version > 1.14, 支持CSI
Golang 1.12+
Helm 3
Fluid 0.6.0

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE：https://github.com/aliyun/alibabacloud-jindofs/issues

演示：对 HDFS 上海量小文件进行访问加速

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

相关文档链接：

Fluid JindoRuntime 使用文档

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ImageNet 数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

InsightFace数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

⭐点击回放链接，直接观看第18讲视频回放，获取讲师实例讲解：

https://developer.aliyun.com/live/247034

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

文章标签：

开源大数据平台 E-MapReduce

容器

机器学习/深度学习

人工智能

索引

对象存储

Kubernetes

缓存

存储

关键词：

实操AI

数据湖jindofs小文件

数据湖小文件

数据湖AI

数据湖训练

阿里云E-MapReduce团队

目录

相关文章

阿里云瑶池数据库_

|

12月前

|

存储人工智能分布式计算

数据不用搬，AI直接炼！阿里云AnalyticDB AI数据湖仓一站式融合AI+BI

阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版（以下简称ADB）诞生于高性能实时数仓时代，实现了PB级结构化数据的高效处理和分析。在前几年，为拥抱大数据的浪潮，ADB从传统数仓拓展到数据湖仓，支持Paimon/Iceberg/Delta Lake/Hudi湖格式，为开放的数据湖提供数据库级别的性能、可靠性和管理能力，从而更好地服务以SQL为核心的大规模数据处理和BI分析，奠定了坚实的湖仓一体基础。

阿里云瑶池数据库_

2013 2 2

蚝油菜花

|

人工智能自然语言处理 Java

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

FastExcel 是一款基于 Java 的高性能 Excel 处理工具，专注于优化大规模数据处理，提供简洁易用的 API 和流式操作能力，支持从 EasyExcel 无缝迁移。

蚝油菜花

4027 65 65

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

卓伊凡

|

人工智能前端开发 Unix

使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法

使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法

卓伊凡

759 29 29

使用tree命令把自己的代码归类文件目录的方法-优雅草央千澈以优雅草AI智能功能为例给大家展示tree命令实际用法

蚝油菜花

|

机器学习/深度学习人工智能文字识别

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

蚝油菜花

1857 4 4

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

AIweker

|

存储人工智能分布式计算

Parquet 文件格式详解与实战 | AI应用开发

Parquet 是一种列式存储文件格式，专为大规模数据处理设计，广泛应用于 Hadoop 生态系统及其他大数据平台。本文介绍 Parquet 的特点和作用，并演示如何在 Python 中使用 Pandas 库生成和读取 Parquet 文件，包括环境准备、生成和读取文件的具体步骤。【10月更文挑战第13天】

AIweker

3747 60 60

ZOMI酱

|

存储机器学习/深度学习 PyTorch

【AI系统】推理文件格式

本文介绍了神经网络模型的序列化与反序列化技术，涵盖跨平台通用序列化方法（如 Protobuf 和 FlatBuffers）、模型自定义序列化方法、语言级通用序列化方法等，重点讨论了这两种流行文件格式的特点、使用场景及其在模型部署中的作用。

ZOMI酱

571 1 1

技术小达人

|

存储人工智能 Kubernetes

MiniMax云上AI数据湖最佳实践

本简介介绍MiniMax云上AI数据湖的最佳实践。MiniMax成立于2021年，专注于通用人工智能领域，提供ToB和C端产品。面对每日3万亿token、2000万张图片及7万小时语音数据的处理需求，MiniMax基于阿里云构建了稳定灵活的基础设施，采用多云策略实现全球化部署。通过引入Kubernetes、Ray等技术，优化了多模态数据处理效率，并利用对象存储与数据湖技术降低成本。此外，与阿里云合作开发边缘缓存方案，提升跨地域数据传输效率。主讲人：阿里云弹性计算技术专家高庆端。

技术小达人

1028 10 10

蚝油菜花

|

人工智能自然语言处理搜索推荐

Open Notebook：开源 AI 笔记工具，支持多种文件格式，自动转播客和生成总结，集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具，支持多格式笔记管理，并能自动将笔记转换为博客或播客，适用于学术研究、教育、企业知识管理等多个场景。

蚝油菜花

2477 0 0

Open Notebook：开源 AI 笔记工具，支持多种文件格式，自动转播客和生成总结，集成搜索引擎等功能

阿里云存储

|

数据采集存储人工智能

AI时代数据湖实践

本文分享了如何利用阿里云的存储解决方案构建一个具备高效处理、高时效性的AI数据湖，通过高吞吐训练和高效推理帮助企业快速实现数据价值，以及用户在使用中的最佳实践。

阿里云存储

1898 3 3

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

阿里封神-大数据处理技术漫谈

JindoFS概述：云原生的大数据计算存储分离方案

玩转阿里云EMR三部曲-中级篇集成自有服务

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

淘天集团基于 Fluss、Paimon 与 StarRocks 构建湖流一体数据链路

EMR Serverless Spark AI Function 的双维降本实践

【直播】StarRocks Stella 2.0 发布｜具身行业训练数据圈选实战

活动报名 | Agentic Lakehouse Meetup · 北京站，从开源技术创新到多模态数据智能化

基于 StarRocks提效多模态工单标注与舆情研判的实践

EMR Serverless Spark PB级文本语义去重4倍加速的技术方案解读

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

阿里云 EMR Serverless StarRocks（Stella 2.2.0）发布：多模态处理与分析闭环，内表与湖表统一检索

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

相关课程

更多

AI人像动漫画实操教学

视觉AI技术体系及趋势概述

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

达摩院视觉AI精品课

相关电子书

更多

DLA 一站式数据湖管理-如何高效构建安全的数据湖？

阿里云云原生数据湖体系全解读

数据湖存储解决方案蓝皮书

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！