数据湖实操讲解【AI 训练加速】第十六讲:Fluid + JindoFS 对 OSS 上数据进行训练加速

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【AI 训练加速】第十六讲


主题:FFluid + JindoFS 对 OSS 上数据进行训练加速luid+JindoFSOSS 上数据进行训练加速

讲师:扬礼,阿里巴巴计算平台事业部 开源大数据平台 开发工程师


内容框架:

  • Fluid 介绍
  • Fluid JindoRuntime
  • 使用Fluid JindoRuntime 加速 OSS训练
  • 演示


直播回放链接:(16讲)

https://developer.aliyun.com/live/247018

一、Fluid 介绍

         CNCF Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。

         参考网址:

https://github.com/fluid-cloudnative/fluid

image.png

Fluid核心理念

  • 提供云平台数据集抽象的原生支持数据密集型应用所需基础支撑能力功能化,实现数据高效访问并降低多维成本。
  • 基于容器调度管理的数据集编排通过数据集缓存引擎与Kubernetes容器调度和扩缩容能力的相互配合,实现数据集可迁移性。
  • 面向云上数据本地化的应用调度Kubernetes调度器通过与缓存引擎交互获得节点的数据缓存信息,将使用该数据的应用以透明的方式调度到包含数据缓存的节点,最大化缓存本地性的优势。


Fluid功能概念

    Fluid不是全存储加速和管理,而是应用使用的数据集加速和管理

  • Dataset: 数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。
  • Runtime: 实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。
  • JindoRuntime: 内核基于 JindoFS ,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。

二、Fluid JindoRuntime

 背景:云原生环境中使用JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排

 

 痛点:

  • 数据集和加速引擎生命周期管理
  • 数据集智能部署和使用
  • 数据集可观测和水平扩展

image.png


优势:

  • 开箱即用,加速 OSS/HDFS/S3 上数据

image.png

  • 支持元数据数据预热、原子性cache
  • 小文件缓存优化,大大提高小文件训练场景性能
  • Fuse/ Posix 接口支持:JindoRuntime提供对OSS对象存储服务和 HDFS 的访问和缓存加速能力,并且利用 FUSE的 POSIX 文件系统接口实现可以像本地磁盘一样轻松使用OSS 上的海量文件

image.png

三、使用 Fluid JindoRuntime 加速 OSS 训练

ImageNet 数据集加速测试:

      使用 ImageNet 数据集基于Kubernetes 集群并使用 Arena 在此数据集上训练ResNet-50 模型,基于JindoFS 的JindoRuntime 在开启本地缓存的情况下性能大幅度优于开源OSSFS,训练耗时缩短了76%。

image.png

参考网址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md


InsightFace 数据集加速测试:

      使用 InsightFace 数据集基于Kubernetes 集群进行小文件场景的训练测试(包含约380万个小文件,每个文件大小约为23KB),基于元数据缓存和数据缓存策略,在相同集群和带宽的OSSbucket下,基于JindoRuntime 训练时间大大缩短。

image.png

参考网址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md

四、演示

Fluid JindoRuntime 使用

环境要求:

  • Kubernetes version > 1.14, 支持CSI
  • Golang 1.12+
  • Helm 3
  • Fluid 0.6.0


参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues

image.png

演示:对 OSS上数据进行加速访问

参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

image.pngimage.png


点击回放链接,直接观看第15讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247018




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
打赏
0
0
0
0
1336
分享
相关文章
AI场景下的对象存储OSS数据管理实践
本文介绍了ECS和OSS的操作流程,分为两大部分。第一部分详细讲解了ECS的登录、密码重置、安全组设置及OSSUTIL工具的安装与配置,通过实验创建并管理存储桶,上传下载文件,确保资源及时释放。第二部分则聚焦于OSSFS工具的应用,演示如何将对象存储挂载为磁盘,进行大文件加载与模型训练,强调环境搭建(如Conda环境)及依赖安装步骤,确保实验结束后正确清理AccessKey和相关资源。整个过程注重操作细节与安全性,帮助用户高效利用云资源完成实验任务。
652 161
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1512 4
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
MiniMax云上AI数据湖最佳实践
本简介介绍MiniMax云上AI数据湖的最佳实践。MiniMax成立于2021年,专注于通用人工智能领域,提供ToB和C端产品。面对每日3万亿token、2000万张图片及7万小时语音数据的处理需求,MiniMax基于阿里云构建了稳定灵活的基础设施,采用多云策略实现全球化部署。通过引入Kubernetes、Ray等技术,优化了多模态数据处理效率,并利用对象存储与数据湖技术降低成本。此外,与阿里云合作开发边缘缓存方案,提升跨地域数据传输效率。主讲人:阿里云弹性计算技术专家高庆端。
127 10
AI场景下的对象存储OSS数据管理实践
本文介绍了对象存储(OSS)在AI业务中的应用与实践。内容涵盖四个方面:1) 对象存储作为AI数据基石,因其低成本和高弹性成为云上数据存储首选;2) AI场景下的对象存储实践方案,包括数据获取、预处理、训练及推理阶段的具体使用方法;3) 国内主要区域的默认吞吐量提升至100Gbps,优化了大数据量下的带宽需求;4) 常用工具介绍,如OSSutil、ossfs、Python SDK等,帮助用户高效管理数据。重点讲解了OSS在AI训练和推理中的性能优化措施,以及不同工具的特点和应用场景。
372 10
云端问道17期方案教学-AI场景下的对象存储OSS数据管理实践
本文介绍了AI场景下的对象存储OSS数据管理实践,由阿里云技术专家明锦分享。主要内容分为两部分:1) AI场景下对象存储实践方案,包括对象存储的应用、优势及在模型推理中的优化;2) OSS常用工具介绍,如OSSFS、Python SDK、Go SDK等,并详细说明了这些工具的特点和使用场景。文中还探讨了不同模式下的性能优化,以及即将推出的OS Connector for AI/ML工具,旨在提升数据下载速度和IO性能。
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
5572 16
AI时代数据湖实践
本文分享了如何利用阿里云的存储解决方案构建一个具备高效处理、高时效性的AI数据湖,通过高吞吐训练和高效推理帮助企业快速实现数据价值,以及用户在使用中的最佳实践。
550 3
OSS&Tablestore 向量检索能力全新升级,重塑AI时代数据管理
阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外,还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能,是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。表格存储针对成本、规模、召回率等挑战,发布了低成本、大规模、高性能、高召回率的向量检索服务,能以较低成本支持千亿规模数据的存储和检索。
358 10
OSS&Tablestore 向量检索能力全新升级,重塑AI时代数据管理
近日,阿里云成功举办了“AI驱动:数据管理的进化与创新 ”线上新品发布会。发布会上,阿里云存储产品向量检索能力全新升级,重塑AI时代数据管理。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等