Fluid新魔法:跨namespace共享数据

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 什么是Fluid?在云上通过云原生架构运行AI、大数据等任务,可以享受计算资源弹性的优势,但同时也会遇到,计算和存储分离架构带来的数据访问延迟和远程拉取数据带宽开销大的挑战。尤其在GPU深度学习训练场景中,迭代式的远程读取大量训练数据方法会严重拖慢GPU计算效率。另一方面,Kubernetes只提供了异构存储服务接入和管理标准接口(CSI,Container Storage Interface),
什么是Fluid?

在云上通过云原生架构运行AI、大数据等任务,可以享受计算资源弹性的优势,但同时也会遇到,计算和存储分离架构带来的数据访问延迟和远程拉取数据带宽开销大的挑战。尤其在GPU深度学习训练场景中,迭代式的远程读取大量训练数据方法会严重拖慢GPU计算效率。

另一方面,Kubernetes只提供了异构存储服务接入和管理标准接口(CSI,Container Storage Interface),对应用如何在容器集群中使用和管理数据并没有定义。在运行训练任务时,数据科学家需要能够管理数据集版本,控制访问权限,数据集预处理,加速异构数据读取等。但是在Kubernetes中还没有这样的标准方案,这是云原生容器社区缺失的重要能力之一。

Fluid对“计算任务使用数据的过程”进行抽象,提出了弹性数据集Dataset的概念,并作为“first class citizen”在Kubernetes中实现。Fluid围绕弹性数据集Dataset,创建了数据编排与加速系统,来实现Dataset管理(CRUD操作)、权限控制和访问加速等能力。

Fluid中有两个最核心的概念:Dataset和Runtime。

  • Dataset 是指数据集,是逻辑上相关的一组数据的集合,会被计算引擎使用,比如Spark,TensorFlow,PyTorch等等。
  • Runtime 指的是提供分布式缓存的系统,目前 Fluid 支持的 Runtime 类型有 JuiceFS、Alluxio、JindoFS,GooseFS,其中 Alluxio、JindoFS 都是典型的分布式缓存引擎; JuiceFS 是一款分布式文件系统,具备分布式缓存能力。这些缓存系统使用Kubernetes集群中节点上的存储资源(如:内存和磁盘)来作为远程存储系统的计算侧缓存。

为什么Fluid需要支持跨namespace共享?

Fluid最早的模式默认支持一个Dataset独占一个Runtime,可以理解为一个数据集就有专门的缓存集群加速。可以针对于数据集的特点,比如单文件大小特征,文件数量规模,客户端数量进行定制优化;并且提供单独的缓存系统。它能够提供最好的性能以及稳定性,并且不会互相干扰,但是它的问题在于硬件资源浪费,需要为每个不同的数据集部署缓存系统;同时运维复杂,需要管理多个缓存Runtime。这种模式其实本质上是单租户架构,适合于对于数据访问吞吐和延时高要求的场景。

当然随着Fluid使用的深入,也有不同的需求出现。比如用户会在多个不同的Namespace中创建数据密集型作业,且这些作业将访问相同的数据集。多个数据科学家共享相同的数据集,各数据科学家拥有自己独立的Namespace提交作业。如果对于每个Namespace重新部署缓存系统并进行缓存预热,那么就会造成数据冗余和作业启动延迟问题。

此时社区用户能够为了节省资源和运维简单降低对于性能的要求,社区用户就开始有了跨Namespace访问数据集的需求。跨namespace需求本质上是在呼唤多租户架构,即集群管理员将Runtime指向某个存储的根目录,多个数据科学家可以在不同的Namespace中创建多个Dataset共用同一个Runtime。更近一步,管理员可以为不同Namespace的数据科学家配置子目录和不同的读写权限。

共享Runtime模式

独占Runtime模式

性能

相对低

可靠性

相对低

隔离性

相对低

可定制配置能力

相对低

升级能力

升级简单,只需要更新一次,维护人员不需要对每个用户更新,节省了很大的运维成本。

可以控制升级的时间和方式,选择延迟甚至跳过升级周期。

运维复杂度

简单

多个数据集管理成本高

硬件成本

相对低

所有的架构选择上并不存在银弹,都是取舍。本文以AlluxioRuntime为例子向您演示如何使用Fluid共享Runtime。

使用样例:

想像一下,用户A在Kubernetes的命名空间development下对于数据集spark进行预热,用户B可以在另一个命名空间production中访问缓存过的数据,做到一次预热,不同namespace的用户都得到收益。

  1. 在运行该示例之前,请参考 安装文档 完成安装(目前该功能存在于master分支)。并检查Fluid各组件正常运行:
NAME                                        READY   STATUS              RESTARTS   AGE
csi-nodeplugin-fluid-mwx59                  2/2     Running             0          5m46s
csi-nodeplugin-fluid-tcbfd                  2/2     Running             0          5m46s
csi-nodeplugin-fluid-zwm8t                  2/2     Running             0          5m46s
dataset-controller-5c7557c4c5-q58bb         1/1     Running             0          5m46s
fluid-webhook-67fb7dffd6-h8ksp              1/1     Running             0          5m46s
fluidapp-controller-59b4fcfcb7-b8tx5        1/1     Running             0          5m46s

  1. 创建命名空间development
$ kubectl create ns development
  1. 在命名空间development创建Dataset和AlluxioRuntime, 
$ cat<<EOF >dataset.yaml
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: spark
  namespace: development
spec:
  mounts:
    - mountPoint: https://mirrors.bit.edu.cn/apache/spark/
      name: spark
      path: "/"
---
apiVersion: data.fluid.io/v1alpha1
kind: AlluxioRuntime
metadata:
  name: spark
  namespace: development
spec:
  replicas: 1
  tieredstore:
    levels:
      - mediumtype: MEM
        path: /dev/shm
        quota: 4Gi
        high: "0.95"
        low: "0.7"
EOF
  1. 查看数据集状态
$ kubectl get dataset -A
NAMESPACE     NAME    UFS TOTAL SIZE   CACHED   CACHE CAPACITY   CACHED PERCENTAGE   PHASE   AGE
development   spark   3.41GiB          0.00B    4.00GiB          0.0%                Bound   2m54s
  1. 在命名空间development创建Pod访问数据集
$ cat<<EOF >app.yaml
apiVersion: v1
kind: Pod
metadata:
  name: nginx
  namespace: development
spec:
  containers:
    - name: nginx
      image: nginx
      volumeMounts:
        - mountPath: /data
          name: spark
  volumes:
    - name: spark
      persistentVolumeClaim:
        claimName: spark
EOF

$ kubectl create -f app.yaml
  1. 查看应用通过dataset可以访问的数据, 并且执行拷贝。可以发现拷贝1.4G数据(7个文件)
$ kubectl exec -it -n development nginx -- ls -ltr /data
total 2
dr--r----- 1 root root 6 Dec  4 15:39 spark-3.1.3
dr--r----- 1 root root 7 Dec  4 15:39 spark-3.2.3
dr--r----- 1 root root 7 Dec  4 15:39 spark-3.3.1
$ kubectl exec -it -n development nginx -- bash
root@nginx:/# time cp -R  /data/spark-3.3.1/* /tmp

real	3m16.761s
user	0m0.021s
sys	0m3.520s
root@nginx:/# du -sh /tmp/
1.4G	/tmp/
root@nginx:/# du -sh /tmp/*
348K	/tmp/SparkR_3.3.1.tar.gz
269M	/tmp/pyspark-3.3.1.tar.gz
262M	/tmp/spark-3.3.1-bin-hadoop2.tgz
293M	/tmp/spark-3.3.1-bin-hadoop3-scala2.13.tgz
286M	/tmp/spark-3.3.1-bin-hadoop3.tgz
201M	/tmp/spark-3.3.1-bin-without-hadoop.tgz
28M	/tmp/spark-3.3.1.tgz
  1. 通过dataload对于指定数据集子目录进行加载
$ cat<<EOF >dataload.yaml
apiVersion: data.fluid.io/v1alpha1
kind: DataLoad
metadata:
  name: spark
  namespace: development
spec:
  dataset:
    name: spark
    namespace: development
  target:
    - path: /spark-3.3.1
EOF

$ kubectl create -f dataload.yaml
  1. 查看dataload状态
$ kubectl get dataload -A
NAMESPACE     NAME    DATASET   PHASE      AGE     DURATION
development   spark   spark     Complete   5m47s   2m1s
  1. 查看缓存效果, 可以看到38.4%的数据已经缓存完成
$ kubectl get dataset -n development
NAME    UFS TOTAL SIZE   CACHED    CACHE CAPACITY   CACHED PERCENTAGE   PHASE   AGE
spark   3.41GiB          1.31GiB   4.00GiB          38.4%               Bound   79m
  1. 再次拷贝1.4G数据仅耗时0.8秒,  访问速度比之前的提升了245倍
$ kubectl exec -it -n development nginx -- bash
root@nginx:/# time cp -R  /data/spark-3.3.1/* /tmp

real	0m0.872s
user	0m0.009s
sys	0m0.859s
root@nginx:/# du -sh /tmp/
1.4G	/tmp/
root@nginx:/# du -sh /tmp/*
348K	/tmp/SparkR_3.3.1.tar.gz
269M	/tmp/pyspark-3.3.1.tar.gz
262M	/tmp/spark-3.3.1-bin-hadoop2.tgz
293M	/tmp/spark-3.3.1-bin-hadoop3-scala2.13.tgz
286M	/tmp/spark-3.3.1-bin-hadoop3.tgz
201M	/tmp/spark-3.3.1-bin-without-hadoop.tgz
28M	/tmp/spark-3.3.1.tgz
  1. 创建production命名空间
$ kubectl create ns production
  1. 在 production  命名空间下,创建:

引用数据集spark,其mountPoint格式为dataset://${初始数据集所在namespace}/${初始数据集名称},  在本例子中初始dataset所在

注: 当前引用的数据集,只支持一个mount,且形式必须为dataset://(即出现dataset://和其它形式时,dataset创建失败),Spec中其它字段无效;

$ cat<<EOF >spark-production.yaml
apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: spark
  namespace: production
spec:
  mounts:
    - mountPoint: dataset://development/spark
      name: spark
      path: "/"
EOF

$ kubectl create -f spark-production.yaml
  1. 查看数据集, 可以看到在production这命名空间下的spark数据集,并且都已经完成了数据缓存
$ kubectlkubectl get dataset -n production
NAME    UFS TOTAL SIZE   CACHED    CACHE CAPACITY   CACHED PERCENTAGE   PHASE   AGE
spark   3.41GiB          1.31GiB   4.00GiB          38.4%               Bound   14h
  1. 在production命名空间,创建Pod:
$ cat<<EOF >app-production.yaml
apiVersion: v1
kind: Pod
metadata:
  name: nginx
  namespace: production
spec:
  containers:
    - name: nginx
      image: nginx
      volumeMounts:
        - mountPath: /data
          name: spark
  volumes:
    - name: spark
      persistentVolumeClaim:
        claimName: spark
EOF

$ kubectl create -f app-production.yaml
  1. 在production命名空间访问数据的耗时也是0.878s,
$ kubectl exec -it -n production nginx -- ls -ltr /data
total 2
dr--r----- 1 root root 6 Dec  4 15:39 spark-3.1.3
dr--r----- 1 root root 7 Dec  4 15:39 spark-3.2.3
dr--r----- 1 root root 7 Dec  4 15:39 spark-3.3.1
$ kubectl exec -it -n production nginx -- bash
root@nginx:/# ls -ltr /tmp/
total 0
root@nginx:/# time cp -R  /data/spark-3.3.1/* /tmp

real	0m0.878s
user	0m0.014s
sys	0m0.851s
root@nginx:/# du -sh /tmp
1.4G	/tmp
root@nginx:/# du -sh /tmp/*
348K	/tmp/SparkR_3.3.1.tar.gz
269M	/tmp/pyspark-3.3.1.tar.gz
262M	/tmp/spark-3.3.1-bin-hadoop2.tgz
293M	/tmp/spark-3.3.1-bin-hadoop3-scala2.13.tgz
286M	/tmp/spark-3.3.1-bin-hadoop3.tgz
201M	/tmp/spark-3.3.1-bin-without-hadoop.tgz
28M	/tmp/spark-3.3.1.tgz

总结:

上面的例子展示了如何使用Fluid实现跨namespace共享数据集的能力,下一步Fluid会支持在Serverless Kubernetes上的跨Namespace数据集访问,实际上对于用户来说整个使用体验没有任何差别。

在近一步我们会支持Sub Dataset的能力,也就是将某个Dataset的子目录作为Dataset。能够实现同一套缓存,适合于不同的数据科学家。敬请期待。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
4月前
|
Prometheus Kubernetes 监控
Kubernetes 的 NameSpace 无法删除应该怎么办?
Kubernetes 的 NameSpace 无法删除应该怎么办?
|
16天前
|
Kubernetes 容器 Perl
Namespaces 隔离资源
Namespaces 隔离资源
|
4月前
|
Kubernetes 调度 微服务
K8s 生产最佳实践 - 限制 NameSpace 资源用量
K8s 生产最佳实践 - 限制 NameSpace 资源用量
|
Kubernetes 容器 Perl
kubernetes强制删除pod、namespace等资源
kubernetes强制删除pod、namespace等资源
913 0
|
Linux Shell Docker
为什么构建容器需要 Namespace ?
Namespace 是 Linux 内核的一项功能,该功能对内核资源进行分区,以使一组进程看到一组资源,而另一组进程看到另一组资源。Namespace 的工作方式通过为一组资源和进程设置相同的 Namespace 而起作用,但是这些 Namespace 引用了不同的资源。资源可能存在于多个 Namespace 中。这些资源可以是进程 ID、主机名、用户 ID、文件名、与网络访问相关的名称和进程间通信。
134 0
|
Kubernetes 调度 数据中心
K8S 集群 NameSpace(命名空间)_NameSpace 介绍及查看 | 学习笔记
快速学习 K8S 集群 NameSpace(命名空间)_NameSpace 介绍及查看
1066 0
K8S 集群 NameSpace(命名空间)_NameSpace 介绍及查看 | 学习笔记
|
程序员
ClassLoader 隔离性的基石是namespace,证明给你看
ClassLoader 隔离性的基石是namespace,证明给你看
131 0
ClassLoader 隔离性的基石是namespace,证明给你看
|
存储 缓存 分布式计算
Fluid新魔法:跨Kubernetes Namespace共享数据集
Fluid帮助数据科学家优化数据访问。不同的数据科学家团队会在多个不同的Namespace中创建数据密集型作业,且这些作业将访问相同的数据集。多个数据科学家复用相同的数据集,特别是开源数据集。各数据科学家拥有自己独立的Namespace提交作业。如果对于每个Namespace运行缓存运行时并进行缓存预热,会造成缓存资源浪费和作业启动延迟问题。
725 0
Fluid新魔法:跨Kubernetes Namespace共享数据集
|
Kubernetes 开发者 容器
K8S 集群 NaneSpace(命名空间)NameSpace 删除及学习总结 | 学习笔记
快速学习 K8S 集群 NaneSpace(命名空间)NameSpace 删除及学习总结
1838 0
K8S 集群 NaneSpace(命名空间)NameSpace 删除及学习总结 | 学习笔记
|
Perl
不同namespace的pod反亲和配置
不同namespace的pod反亲和配置
208 0