文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

数据湖实操讲解【AI 训练加速】第十六讲：Fluid + JindoFS 对 OSS 上数据进行训练加速

2021-07-07 1375

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据湖 JindoFS+OSS 实操干货 36讲每周二16点准时直播！扫文章底部二维码入钉群，线上准时观看~ Github链接： https://github.com/aliyun/alibabacloud-jindofs

本期导读：【AI 训练加速】第十六讲

主题：FFluid + JindoFS 对 OSS 上数据进行训练加速luid+JindoFS 对 OSS 上数据进行训练加速

讲师：扬礼，阿里巴巴计算平台事业部开源大数据平台开发工程师

内容框架：

Fluid 介绍
Fluid JindoRuntime
使用Fluid JindoRuntime 加速 OSS训练
演示

直播回放链接：（16讲）

https://developer.aliyun.com/live/247018

一、Fluid 介绍

CNCF Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用、AI应用等。

参考网址：

https://github.com/fluid-cloudnative/fluid

Fluid核心理念

提供云平台数据集抽象的原生支持：数据密集型应用所需基础支撑能力功能化，实现数据高效访问并降低多维成本。
基于容器调度管理的数据集编排：通过数据集缓存引擎与Kubernetes容器调度和扩缩容能力的相互配合，实现数据集可迁移性。
面向云上数据本地化的应用调度：Kubernetes调度器通过与缓存引擎交互获得节点的数据缓存信息，将使用该数据的应用以透明的方式调度到包含数据缓存的节点，最大化缓存本地性的优势。

Fluid功能概念

Fluid不是全存储加速和管理，而是应用使用的数据集加速和管理

Dataset: 数据集是逻辑上相关的一组数据的集合，一致的文件特性，会被同一运算引擎使用。
Runtime: 实现数据集安全性，版本管理和数据加速等能力的执行引擎的接口，定义了一系列生命周期的方法。
JindoRuntime: 内核基于 JindoFS ，是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

二、Fluid JindoRuntime

背景：云原生环境中使用JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排

痛点：

数据集和加速引擎生命周期管理
数据集智能部署和使用
数据集可观测和水平扩展

优势：

开箱即用，加速 OSS/HDFS/S3 上数据

支持元数据数据预热、原子性cache
小文件缓存优化，大大提高小文件训练场景性能
Fuse/ Posix 接口支持：JindoRuntime提供对OSS对象存储服务和 HDFS 的访问和缓存加速能力，并且利用 FUSE的 POSIX 文件系统接口实现可以像本地磁盘一样轻松使用OSS 上的海量文件

三、使用 Fluid JindoRuntime 加速 OSS 训练

ImageNet 数据集加速测试：

使用 ImageNet 数据集基于Kubernetes 集群并使用 Arena 在此数据集上训练ResNet-50 模型，基于JindoFS 的JindoRuntime 在开启本地缓存的情况下性能大幅度优于开源OSSFS，训练耗时缩短了76%。

参考网址：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

InsightFace 数据集加速测试：

使用 InsightFace 数据集基于Kubernetes 集群进行小文件场景的训练测试（包含约380万个小文件，每个文件大小约为23KB），基于元数据缓存和数据缓存策略，在相同集群和带宽的OSSbucket下，基于JindoRuntime 训练时间大大缩短。

参考网址：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

四、演示

Fluid JindoRuntime 使用

环境要求：

Kubernetes version > 1.14, 支持CSI
Golang 1.12+
Helm 3
Fluid 0.6.0

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE：https://github.com/aliyun/alibabacloud-jindofs/issues

演示：对 OSS上数据进行加速访问

参考文档：https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

⭐点击回放链接，直接观看第15讲视频回放，获取讲师实例讲解：

https://developer.aliyun.com/live/247018

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

文章标签：

开源大数据平台 E-MapReduce

对象存储

容器服务Kubernetes版

容器

Cloud Native

计算机视觉

人工智能

对象存储

Kubernetes

调度

缓存

存储

大数据

关键词：

AI训练

AI数据湖

AI数据

数据湖数据

对象存储数据

阿里云E-MapReduce团队

目录

相关文章

阿里云瑶池数据库_

|

10月前

|

存储人工智能分布式计算

数据不用搬，AI直接炼！阿里云AnalyticDB AI数据湖仓一站式融合AI+BI

阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版（以下简称ADB）诞生于高性能实时数仓时代，实现了PB级结构化数据的高效处理和分析。在前几年，为拥抱大数据的浪潮，ADB从传统数仓拓展到数据湖仓，支持Paimon/Iceberg/Delta Lake/Hudi湖格式，为开放的数据湖提供数据库级别的性能、可靠性和管理能力，从而更好地服务以SQL为核心的大规模数据处理和BI分析，奠定了坚实的湖仓一体基础。

阿里云瑶池数据库_

1899 2 2

技术小达人

|

存储人工智能 Kubernetes

MiniMax云上AI数据湖最佳实践

本简介介绍MiniMax云上AI数据湖的最佳实践。MiniMax成立于2021年，专注于通用人工智能领域，提供ToB和C端产品。面对每日3万亿token、2000万张图片及7万小时语音数据的处理需求，MiniMax基于阿里云构建了稳定灵活的基础设施，采用多云策略实现全球化部署。通过引入Kubernetes、Ray等技术，优化了多模态数据处理效率，并利用对象存储与数据湖技术降低成本。此外，与阿里云合作开发边缘缓存方案，提升跨地域数据传输效率。主讲人：阿里云弹性计算技术专家高庆端。

技术小达人

966 10 10

阿里云存储

|

数据采集存储人工智能

AI时代数据湖实践

本文分享了如何利用阿里云的存储解决方案构建一个具备高效处理、高时效性的AI数据湖，通过高吞吐训练和高效推理帮助企业快速实现数据价值，以及用户在使用中的最佳实践。

阿里云存储

1845 3 3

阿里云基础设施.

|

存储人工智能 NoSQL

OSS&Tablestore 向量检索能力全新升级，重塑AI时代数据管理

近日，阿里云成功举办了“AI驱动：数据管理的进化与创新 ”线上新品发布会。发布会上，阿里云存储产品向量检索能力全新升级，重塑AI时代数据管理。

阿里云基础设施.

361 3 3

萝卜丝丸子

|

存储机器学习/深度学习弹性计算

阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决

阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决

萝卜丝丸子

343 1 1

萝卜丝丸子

|

存储安全 API

阿里云EMR数据湖文件系统问题之JindoFS元数据查询和修改请求的问题如何解决

阿里云EMR数据湖文件系统问题之JindoFS元数据查询和修改请求的问题如何解决

萝卜丝丸子

161 1 1

萝卜丝丸子

|

存储缓存数据管理

阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决

阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决

萝卜丝丸子

247 0 0

萝卜丝丸子

|

存储对象存储云计算

阿里云EMR数据湖文件系统问题之JindoFS处理大量小文件的问题如何解决

阿里云EMR数据湖文件系统问题之JindoFS处理大量小文件的问题如何解决

萝卜丝丸子

193 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

分布式快照算法: Chandy-Lamport

助力云上开源生态 - 阿里云开源大数据平台的发展

钉钉群直播【Spark Relational Cache 原理和实践】

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

为什么选择ali-E-MapReduce

使用spark-redis组件访问云数据库Redis

开源大数据周刊-第67期

开源大数据周刊-第77期

E-MapReduce集群使用Oozie工作流简单示例

Spark中的内存管理(一)

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

AIGC无处不在，把AI应用构建于Serverless之上

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

AI 原生应用开源开发者沙龙·上海站电子书

AI原生应用开发实战营—Serverless AI专场·北京

阿里云 AI 原生应用开发实战营

相关实验场景

更多

通过OSS加速器加速AI数据传输

基于阿里云企业网盘搭建AI知识库

基于dify快速构建一款定制化AI工具

基于ECS部署一款规划行程的AI Agent

基于ECS部署DeepSeek个人专属AI网站

通过云原生API网关进行AI缓存

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！