JindoFS缓存加速数据湖上的机器学习训练

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。

背景介绍

近些年,机器学习领域快速发展,广泛应用于各行各业。对于机器学习领域的从业人员来说,充满了大量的机遇和挑战。Tensorflow、PyTorch等深度学习框架的出现,使开发者能够轻松地构建和部署机器学习应用。随着近些年云计算技术的不断成熟,越来越多的人接受将他们的开发、生产服务搬到云上平台,因为云环境在计算成本、规模扩展上比传统平台有显著的优势。云上平台为了达到弹性、节约成本,通常采用计算存储分离的解决方案。使用对象存储构建数据湖,可以降低成本、存储海量数据。在机器学习这个场景下,尤其适合将训练数据存储在数据湖上。

将训练数据存储在数据湖上具有以下优势:

1.不需要将数据提前同步到训练节点。传统方式,我们需要将数据提前导入到计算节点的本地磁盘。而如果将数据存储在对象存储上,我们可以直接读取数据进行训练,减少准备工作。

2.可以存储更大的训练数据,不再受限于计算节点本地磁盘大小。对于深度学习,拥有更多的数据,往往能取得更好的训练效果。

3.计算资源可以弹性扩缩容,节约成本。机器学习通常使用使用更多核数的CPU或高端GPU,较为昂贵,对象存储的成本就相对较低。将训练数据存储在数据湖上,可以与计算资源解耦。计算资源可以按需付费,随时释放,达到节省成本的目的。

然而,这种方式同时存在着一些问题和挑战:

1.远端拉取数据的延迟和带宽无法随着计算资源线性扩展。硬件计算能力在不断发展,利用GPU进行计算可以取得更快的训练速度。使用云上弹性计算ECS、容器服务可以快速调度起大规模的计算资源。访问对象存储需要走网络,得益于网络技术的发展,我们访问对象存储有一个高速网络,即便如此,对象存储的网络延时和带宽无法随着集群规模线性扩展,可能会成为瓶颈,限制了训练速度。在计算存储分离架构下,如何高效地访问到这些数据,成为了一个巨大的挑战。

2.需要更加便捷的通用的数据访问方式。深度学习框架如TensorFlow对于GCS、HDFS支持较为友好,而对于诸多第三方对象存储的支持上较为滞后。而POSIX接口是一种更自然友好的方式,使用类似于本地磁盘一样的方式访问数据,大大简化了开发者对存储系统的适配工作。

为了解决数据湖上机器学习训练常规方案存在的上述问题,JindoFS 针对这种场景提供了缓存加速优化方案。

基于JindoFS缓存加速的训练架构方案

JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。

6.png

内存缓存

对于深度学习,我们可以选择计算能力更强的GPU机型,来获取更快的训练速度。此时需要高速的内存吞吐,才能让GPU充分跑满。此时我们可以使用JindoFS基于内存搭建分布式高速缓存。当整个集群的所有内存加起来足以支撑整个数据集时(除去任务本身所需内存量),我们就可以利用内存缓存以及本地高速网络,来提供高的数据吞吐,加快计算速度。

磁盘缓存

对于一些机器学习场景,训练数据的规模超过了内存所能承载的大小,以及训练所需的CPU/GPU能力要求没有那么高,而要求数据访问有较高的吞吐。此时计算的瓶颈会受限于网络带宽压力。因此我们可以搭建使用本地SSD作为缓存介质的JindoFS分布式缓存服务,利用本地存储资源缓存热数据,来达到提高训练速度的效果。

FUSE接口

JindoFS包含了FUSE客户端,提供了简便的、熟悉的数据访问方式。通过FUSE程序将JindoFS集群实例映射到本地文件系统,就可以像访问本地磁盘文件一样,享受到JindoFS带来的加速效果。

实战:搭建Kubernetes + JindoFS + Tensorflow训练集群

1、创建kubernetes集群

我们前往阿里云-容器服务,创建一个Kubernetes集群。

7.png

2、安装JindoFS服务

2.1 前往容器服务->应用目录,进入“JindoFS”安装配置页面。

8.png

2.2 配置参数

完整的配置模板可以参考容器服务-应用目录-jindofs安装说明
配置OSS Bucket和AK,参考文档使用JFS Scheme的部署方式。我们需要修改以下配置项:

jfs.namespaces: test
jfs.namespaces.test.mode :  cache
jfs.namespaces.test.oss.uri :  oss://xxx-sh-test.oss-cn-shanghai-internal.aliyuncs.com/xxx/k8s_c1
jfs.namespaces.test.oss.access.key :  xx
jfs.namespaces.test.oss.access.secret :  xx

通过这些配置项,我们创建了一个名为test的命名空间,指向了chengli-sh-test这个OSS bucket的xxx/k8s_c1目录。后续我们通过JindoFS操作test命名空间的时候,就等同于操作该OSS目录。

2.3 安装服务

8.png

1.验证安装成功

# kubectl get pods
NAME                               READY   STATUS      RESTARTS   AGE
jindofs-fuse-267vq                 1/1     Running     0          143m
jindofs-fuse-8qwdv                 1/1     Running     0          143m
jindofs-fuse-v6q7r                 1/1     Running     0          143m
jindofs-master-0                   1/1     Running     0          143m
jindofs-worker-mncqd               1/1     Running     0          143m
jindofs-worker-pk7j4               1/1     Running     0          143m
jindofs-worker-r2k99               1/1     Running     0          143m

2.在宿主机上访问/mnt/jfs/目录,即等同于访问JindoFS的文件

ls /mnt/jfs/test/
15885689452274647042-0  17820745254765068290-0  entrypoint.sh

3.安装kubeflow(arena)

**Kubeflow 是开源的基于Kubernetes云原生AI平台,用于开发、编排、部署和运行可扩展的便携式机器学习工作负载。Kubeflow支持两种TensorFlow框架分布式训练,分别是参数服务器模式和AllReduce模式。基于阿里云容器服务团队开发的Arena,用户可以提交这两种类型的分布式训练框架。
我们参照github repo上的使用文档进行安装。
**

4. 启动TF作业

arena submit mpi \
--name job-jindofs\
 --gpus=8 \
 --workers=4 \
 --working-dir=/perseus-demo/tensorflow-demo/ \
 --data-dir /mnt/jfs/test:/data/imagenet \
 -e DATA_DIR=/data/imagenet -e num_batch=1000 \
 -e datasets_num_private_threads=8  \
 --image=registry.cn-hangzhou.aliyuncs.com/tensorflow-samples/perseus-benchmark-dawnbench-v2:centos7-cuda10.0-1.2.2-1.14-py36 \
 ./launch-example.sh 4 8

本文中,我们提交了一个ResNet-50模型作业,使用的是大小144GB的ImageNet数据集。数据以TFRecord格式存储,每个TFRecord大小约130MB。模型作业和ImageNet数据集都可以在网上轻松找到。这些参数中,/mnt/jfs/是通过JindoFS FUSE挂载到宿主机的一个目录,test是一个namespace,对应一个oss bucket。我们使用--data-dir将这个目录映射到容器内的/data/imagenet目录,这样作业就可以读取到OSS的数据了,对于读取过的数据,会自动缓存到JindoFS集群本地。

总结

通过JindoFS的缓存加速服务,只需要读取一遍数据,大部分的热数据将缓存到本地内存或磁盘,深度学习的训练速度可以得到显著提高。对于大部分训练,我们还可以使用预加载的方式先将数据加载到缓存中,来加快下一次训练的速度。


更多数据湖技术相关的文章请点击:[阿里云重磅发布云原生数据湖体系
](https://developer.aliyun.com/article/772298?spm=a2c6h.12873581.0.dArticle772298.28042b0fFZNGve&groupCode=datalakeformation)


更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群
数据湖钉群.JPG

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
22天前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
51 1
|
1月前
|
API 开发工具 对象存储
在PAI平台上,如何实现不同编程语言任务之间的数据共享?
【7月更文挑战第1天】在PAI平台上,如何实现不同编程语言任务之间的数据共享?
107 58
|
4天前
|
机器学习/深度学习 JSON API
【Python奇迹】FastAPI框架大显神通:一键部署机器学习模型,让数据预测飞跃至Web舞台,震撼开启智能服务新纪元!
【8月更文挑战第16天】在数据驱动的时代,高效部署机器学习模型至关重要。FastAPI凭借其高性能与灵活性,成为搭建模型API的理想选择。本文详述了从环境准备、模型训练到使用FastAPI部署的全过程。首先,确保安装了Python及相关库(fastapi、uvicorn、scikit-learn)。接着,以线性回归为例,构建了一个预测房价的模型。通过定义FastAPI端点,实现了基于房屋大小预测价格的功能,并介绍了如何运行服务器及测试API。最终,用户可通过HTTP请求获取预测结果,极大地提升了模型的实用性和集成性。
14 1
|
5天前
|
存储 安全 API
阿里云EMR数据湖文件系统问题之JindoFS元数据查询和修改请求的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS元数据查询和修改请求的问题如何解决
|
15天前
|
机器学习/深度学习 数据采集 存储
【2021 年 MathorCup 高校数学建模挑战赛—赛道A二手车估价问题】2 问题一 数据预处理、特征工程及模型训练Baseline 和数据
参加2021年MathorCup高校数学建模挑战赛赛道A二手车估价问题时进行的特征工程步骤,包括缺失值处理、时间特征提取、特定匿名特征的处理、特征存储以及模型训练过程,并提供了相关代码的下载链接。
34 2
|
22天前
|
机器学习/深度学习 搜索推荐 安全
云上机器学习平台:赋能智能时代的数据洞察与决策
集成化与一体化:随着云计算、大数据、人工智能等技术的不断融合和发展,云上机器学习平台将逐渐实现与其他云服务的集成化和一体化。用户可以在同一平台上完成数据处理、模型开发、应用部署等多个环节的工作,享受更加便捷和高效的服务体验。 定制化与个性化:针对不同行业和领域的需求特点,云上机器学习平台将提供更加定制化和个性化的服务。通过提供丰富的行业解决方案和定制化开发服务,满足不同用户对于机器学习应用的个性化需求。 安全与合规性:随着数据安全和隐私保护意识的不断提高,云上机器学习平台将更加注重安全和合规性的建设。通过加强数据加密、访问控制、隐私保护等方面的措施,确保用户数据的安全性和隐私性。同时,平台还将
28 1
|
25天前
|
机器学习/深度学习 数据采集 算法
数据海洋中的导航者:Scikit-learn库引领Python数据分析与机器学习新航向!
【7月更文挑战第26天】在数据的海洋里,Python以强大的生态成为探索者的首选,尤其Scikit-learn库(简称sklearn),作为一颗璀璨明珠,以高效、灵活、易用的特性引领数据科学家们破浪前行。无论新手还是专家,sklearn提供的广泛算法与工具支持从数据预处理到模型评估的全流程。秉承“简单有效”的设计哲学,它简化了复杂模型的操作,如线性回归等,使用户能轻松比较并选择最优方案。示例代码展示了如何简洁地实现线性回归分析,彰显了sklearn的强大能力。总之,sklearn不仅是数据科学家的利器,也是推动行业进步的关键力量。
34 3
|
5天前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决