数据湖实操讲解【AI 训练加速】第十六讲:Fluid + JindoFS 对 OSS 上数据进行训练加速

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【AI 训练加速】第十六讲


主题:FFluid + JindoFS 对 OSS 上数据进行训练加速luid+JindoFSOSS 上数据进行训练加速

讲师:扬礼,阿里巴巴计算平台事业部 开源大数据平台 开发工程师


内容框架:

  • Fluid 介绍
  • Fluid JindoRuntime
  • 使用Fluid JindoRuntime 加速 OSS训练
  • 演示


直播回放链接:(16讲)

https://developer.aliyun.com/live/247018

一、Fluid 介绍

         CNCF Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。

         参考网址:

https://github.com/fluid-cloudnative/fluid

image.png

Fluid核心理念

  • 提供云平台数据集抽象的原生支持数据密集型应用所需基础支撑能力功能化,实现数据高效访问并降低多维成本。
  • 基于容器调度管理的数据集编排通过数据集缓存引擎与Kubernetes容器调度和扩缩容能力的相互配合,实现数据集可迁移性。
  • 面向云上数据本地化的应用调度Kubernetes调度器通过与缓存引擎交互获得节点的数据缓存信息,将使用该数据的应用以透明的方式调度到包含数据缓存的节点,最大化缓存本地性的优势。


Fluid功能概念

    Fluid不是全存储加速和管理,而是应用使用的数据集加速和管理

  • Dataset: 数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。
  • Runtime: 实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。
  • JindoRuntime: 内核基于 JindoFS ,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

二、Fluid JindoRuntime

 背景:云原生环境中使用JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排

 

 痛点:

  • 数据集和加速引擎生命周期管理
  • 数据集智能部署和使用
  • 数据集可观测和水平扩展

image.png


优势:

  • 开箱即用,加速 OSS/HDFS/S3 上数据

image.png

  • 支持元数据数据预热、原子性cache
  • 小文件缓存优化,大大提高小文件训练场景性能
  • Fuse/ Posix 接口支持:JindoRuntime提供对OSS对象存储服务和 HDFS 的访问和缓存加速能力,并且利用 FUSE的 POSIX 文件系统接口实现可以像本地磁盘一样轻松使用OSS 上的海量文件

image.png

三、使用 Fluid JindoRuntime 加速 OSS 训练

ImageNet 数据集加速测试:

      使用 ImageNet 数据集基于Kubernetes 集群并使用 Arena 在此数据集上训练ResNet-50 模型,基于JindoFS 的JindoRuntime 在开启本地缓存的情况下性能大幅度优于开源OSSFS,训练耗时缩短了76%。

image.png

参考网址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md


InsightFace 数据集加速测试:

      使用 InsightFace 数据集基于Kubernetes 集群进行小文件场景的训练测试(包含约380万个小文件,每个文件大小约为23KB),基于元数据缓存和数据缓存策略,在相同集群和带宽的OSSbucket下,基于JindoRuntime 训练时间大大缩短。

image.png

参考网址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

四、演示

Fluid JindoRuntime 使用

环境要求:

  • Kubernetes version > 1.14, 支持CSI
  • Golang 1.12+
  • Helm 3
  • Fluid 0.6.0


参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues

image.png

演示:对 OSS上数据进行加速访问

参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

image.pngimage.png


点击回放链接,直接观看第15讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247018




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
4天前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
1月前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
100 1
|
3月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
11月前
|
存储 人工智能 分布式计算
数据湖见证从 BI 到 BI+AI的关键技术演进
AI大模型时代,云计算、大数据、人工智能等技术迅猛发展,当前时期的软件工程变革已经成为行业内外的共同关注点。近日,QCon 全球软件开发大会·北京站顺利落幕,本次大会以「启航·AIGC 软件工程变革」为主题。作为QCon大会的老朋友,阿里云资深技术专家、对象存储技术负责人-罗庆超受邀出席【面向AI的存储】专场,为大家带来《数据湖见证从BI到BI+AI的关键技术演进》分享。
31542 21
|
11月前
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL — Spark 助力在OSS上构建低成本数据湖
阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高可靠的云存储服务。通过和OSS团队的深入合作,AnalyticDB MySQL 的Spark能力 更好发挥了云原生数据湖方案的优势,本文为你详细解读!
|
11月前
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
688 0
|
12月前
|
存储 分布式计算 关系型数据库
AnalyticDB MySQL Spark 助力在OSS上构建低成本数据湖
借助AnalyticDB MySQL Spark 可以轻松处理OSS上PB级数据,助力企业构建低成本数据湖
《阿里云 JindoFS+OSS 数据上云实战》电子版地址
为了帮助读者能更全面地了解 JindoFS,我们特地编撰了这本电子书。从架构到场景到实操,全方面解读jindoFS。
159 0
《阿里云 JindoFS+OSS 数据上云实战》电子版地址
|
3月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
99 2
|
3月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
201 1