数据湖实操讲解【 AI 训练加速】第十八讲:Fluid + JindoFS 对海量小文件的训练加速

简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播! 扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs

本期导读 :【AI 训练加速】第十八讲


主题:FFluid + JindoFS 对海量小文件的训练加速uid+JindoFSOSS 上数据进行训练加速

讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家


内容框架:

  • 海量小文件难题
  • Fluid JindoRuntime 小文件优化
  • 使用 JindoRuntime 加速小文件
  • 演示


直播回放链接:(18讲)

https://developer.aliyun.com/live/247034

一、海量小文件难题

 

AI 训练场景经常需要处理海量小文件

现状:

    image.png            

             

  • RPC 频繁,NameNode 压力大          
  • 延时高

      image.png    

  • 延时高
  • 高频访问稳定性

对缓存系统的诉求:

  • 低延时,高 QPS
  • 稳定可靠的访问性能
  • 能够支撑海量文件数

二、Fluid JindoRuntime 小文件优化

JindoRuntime:

image.png

高效的元数据缓存:

  • 基于 KV-Store 的元数据组织形式,可支持海量文件数,并且不会占用过多内存资源
  • 高效的元数据查询,并且通过热点缓存进一步加速点查性能
  • 元数据服务(Namespace Service)能够提供低延时、高 QPS 的访问性能

      image.pngimage.png

  • Fuse 客户端缓存

高效的数据组织及索引

  • 针对小文件数据块实现高性能磁盘存储及索引机制
  • 一致性哈希实现数据块的分布式缓存索引,缩短小文件读取的链路

        image.png

三、使用 JindoRuntime 加速小文件

JindoRuntime 加速小文件基本步骤

  • 下载并安装 Fluidhttps://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
  • 创建 Dataset
  • 创建 JindoRuntime
  • 缓存预加载 DataLoad
  • 执行 AI 训练作业

       image.png

小文件加速效果

  • 参考文章:《速度提升 18倍!微博海量深度学习模型训练效率跃升的秘密》 https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy

image.png

    相比于 HDFS 接口

  • 1机 4 卡可以得到5 倍的加速
  • 2机 8 卡可以得到9 倍的加速
  • 3机 12 卡可以得到18 倍的加速

image.png

  • 训练总时长由原来的389小时(16 天)缩短到了16 小时

四、演示

Fluid JindoRuntime 使用

环境要求:

  • Kubernetes version > 1.14, 支持CSI
  • Golang 1.12+
  • Helm 3
  • Fluid 0.6.0


参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues

image.png

演示:对 HDFS 上海量小文件进行访问加速

参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

image.png

image.png

相关文档链接:

  • Fluid  JindoRuntime 使用文档

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

  • ImageNet 数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

  • InsightFace数据集加速测试

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md



点击回放链接,直接观看第18讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/247034




Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

69c0a02cc68742fca5d49d92413dc67a.png

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践
阿里云机器学习平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型 OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对 PyTorch 性能在 OLMo 1B 上加速比达到 1.64X,在 OLMo 7B 上加速比达到 1.52X。本文分析了 PAI-TorchAcc 的性能收益来源。
|
7天前
|
数据采集 机器学习/深度学习 人工智能
【AI 生成式】LLM 通常如何训练?
【5月更文挑战第5天】【AI 生成式】LLM 通常如何训练?
|
10天前
|
存储 人工智能 前端开发
[译][AI OpenAI-doc] 文件搜索 Beta
文件搜索通过从其模型外部获取的知识增强了助手的功能,例如专有产品信息或用户提供的文档。通过向量存储库,您可以管理文件的解析、分块、嵌入和存储,以进行关键字和语义搜索。确保向量存储库准备就绪,以确保所有数据可搜索,并利用到期策略管理成本。
|
2月前
|
人工智能 自动驾驶 算法
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
云天励飞,中国AI独角兽,发布“AI模盒”,以千元成本实现多模态大模型的秒级训练推理,降低AI应用门槛。该产品凸显了公司在技术创新与普及中的努力,旨在构建智能城市并重塑日常生活,同时也面临数据安全、隐私保护及人才挑战。
28 3
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
|
2月前
|
人工智能 开发者 Python
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
202 1
|
2月前
|
人工智能 算法 UED
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
【2月更文挑战第26天】OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
28 7
OpenAI与法国和西班牙媒体巨头合作:利用内容进行训练AI
|
2月前
|
人工智能 算法 数据处理
App Inventor 2 Personal Image Classifier (PIC) 拓展:自行训练AI图像识别模型,开发图像识别分类App
这里仅仅介绍一下AI图像识别App的实现原理,AI的基础技术细节不在本文讨论范围。通过拓展即可开发出一款完全自行训练AI模型,用于特定识别场景的App了。
59 1
|
3月前
|
机器学习/深度学习 人工智能 算法
姿态识别+康复训练矫正+代码+部署(AI 健身教练来分析深蹲等姿态)-1
姿态识别+康复训练矫正+代码+部署(AI 健身教练来分析深蹲等姿态)-1
142 1
|
3月前
|
机器学习/深度学习 存储 人工智能
AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验
AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验
AI与人类联手,智能排序人类决策:RLHF标注工具打造协同标注新纪元,重塑AI训练体验