KubeCon China 2025 速递:Fluid - 数据无所不在,计算无处不及

简介: Fluid 在 Kubernetes 中实现了弹性数据集管理,提高 AI/ML 工作负载的数据接入效率,并入选 CNCF 2024 技术雷达报告,评为“Adopt”类别。

【阅读原文】戳:KubeCon China 2025 速递:Fluid - 数据无所不在,计算无处不及

 

 

引言:AI工作负载中访问数据的挑战

 


Kubernetes 提供了传统数据访问接入层面的接口(CSI,Container Storage Interface),但并未定义应用如何在容器集群中高效使用和灵活管理数据。然而,众多数据密集型应用(特别是 AI 工作负载)亟需更高层的数据访问与管理能力,例如:

 

  • Serverless 算力数据接入的封闭性限制:Serverless 算力因其弹性与成本效益(尤其节省 GPU 开销)成为 AI 部署的热门选项。然而,其数据接入模式往往相对封闭,平台通常绑定特定存储服务(如厂商对象存储),第三方或自建存储系统难以通过标准接口(如 CSI)原生接入。
  • 混合云异构数据源访问的标准化缺失:AI 工作负载需在混合云环境中高性能访问异构数据源(如 HDFS/S3/Lusture 等),但社区尚未定义面向云原生的分布式缓存层抽象规范,导致缺乏统一的数据接入接口、生命周期管理及跨平台运维能力。
  • 动态数据源切换的障碍:数据科学家在开发调试过程中常需动态切换所挂载的数据集,而持久卷(PV)的“不可修改”特性迫使 Pod 重建才能生效,严重阻碍了开发迭代效率。

 

以上这些都是云原生容器社区缺失的重要能力。

 

为了解决这些挑战,阿里云容器服务团队、南京大学和 Alluxio 社区共同提出了“云原生弹性数据抽象”概念,并将其作为“一等公民”在 Kubernetes 中实现,以此为基础创建了云原生数据编排与加速系统 Fluid,该项目于 2021 年 5 月被 CNCF 接纳为 Sandbox 项目,旨在加速数据密集型应用全面拥抱云原生。

 

image.png

 

 

Fluid是什么?

 

Fluid 围绕弹性数据集(Dataset),构建了 Kubernetes 环境中容器数据分布式缓存层,实现数据集的管理(CRUD 操作)、权限控制和访问加速等功能。

 

Fluid 的关键概念:Dataset、Runtime & DataOperation

 

  • Dataset(数据集):作为可修改的数据抽象层,在 dataset 中用户可以定义一组异构的数据源;
  • Runtime(运行时):插件化的分布式缓存系统;
  • DataOperation(数据操作):实现数据的主动预热、迁移和处理。

 

Fluid 的愿景:实现 Data Anyway(简单接入),Data Anywhere(到处运行),Data Anytime(按需使用)。

 

  • Data Anyway (简单接入): 关注数据易接入性与计算资源多样性。

 

image.png

 

  • 终端用户: 提供统一的数据接入方式,屏蔽底层算力差异:

 

a. Serverful(传统)算力:通过 CSI Mode,利用标准 PVC/PV 流程挂载

b. Serverless 算力:提供 Sidecar Mode,实现“过程无感”的轻量级接入

 

  • 存储供应商:简化接入流程。供应商无需深入理解 Kubernetes CSI 或精通 Golang,即可通过插件化方式灵活集成存储客户端;同时无需单独维护 CSI 组件。

 

  • Data Anywhere(到处运行):提供混合云通用高速数据访问。

 

image.png

 

  • 通过多种分布式缓存加速跨地域/云的数据访问,为混合云集群提供了通用的数据高速访问能力。
  • 采用 CacheRuntime 插件架构,兼容多样化的缓存引擎(如 Alluxio, JuiceFS, Vineyard, JindoFS, EFC 等)。
  • 支持广泛的存储类型包括阿里云上 CPFS,NAS,OSS,OSS-HDFS,开源的 Cubefs,Juicefs,GlusterFS 等,以及客户自建:360 的 PoleFS,小米的 starFS 等。

 

  • Data Anytime(按需使用):关注数据使用的灵活性和动态性。

 

  • 利用 Dataset 的可修改特性,允许在容器运行时动态修改数据源定义
  • Fluid 自动完成对应挂载点的更新(挂载/卸载),无需重建 Pod,满足数据科学家动态切换数据源的需求,提升开发效率。

 

image.png

 

 

Fluid 社区最新进展

 

image.png

 

轻量级的 Thinruntime:

 

Fluid 简化了 Thinruntime 的 API 定义与职责,让其专注于实现数据客户端在 Kuberenetes 环境中的插件化接入方式,并大幅度优化了其工作流程,以提高大规模集群中海量数据集的处理效率。

 

通用的 CacheRuntime:

 

在现有的模式下,存储供应商将数据引擎接入到 fluid 中需要了解 Fluid 完整的工作机制,定义独立的 CRD 并为其实现相应的 CRD Controller 代码开发,为了与社区越来越多的 Vendor 展开高效合作,Fluid 实现了一种通用的 CacheRuntime CRD,旨在提供一种非入侵的 runtime 接入机制,减少 Vendor 的学习、开发成本,无需过多涉猎 Fluid 与 Kubernetes CSI,仅需关注数据面的处理工作即可通过 Fluid 完成分布式缓存系统在 Kubernetes 中的快速接入。

 

另一方面,CacherRuntime 的出现让终端用户通过一套统一的 CRD API,来使用、管理多样化的分布式缓存系统实现。

 

Fluid 入选 CNCF 2024 技术雷达报告 (Adopt 类别):

 

在犹他州盐湖城举办的北美 Kubecon 大会上,云原生计算基金会(CNCF®)于 2024 年 11 月 14 日发布了 2024 年最新的 CNCF 技术景观雷达报告。该报告深入评估了生态系统中多集群应用管理以及批处理、AI 和 ML 计算技术的生产就绪状态。

 

CNCF 技术景观雷达通过调查 300 多名使用云原生技术的专业开发者以及 CNCF 最终用户社区的成员,收集了他们在多集群应用管理以及批处理、AI 和 ML 技术方面的实际使用经验。这些反馈代表了云原生最终用户最关心的实际问题。

 

报告根据各项技术的生产使用准备情况进行评估,并将它们分为四个类别:采用、试验、评估和保留。其中,“采用”类别包括成熟度最高、用户广泛认可的技术。特别值得注意的是,批处理、AI 和大数据领域的相关项目,如 Apache Airflow、CNCF 的 CubeFS、Kubeflow 和 Fluid,这些技术因其在基于 Kubernetes 的云原生 AI 体系中的应用而备受关注,成为业界技术选择的风向标。(复制下方链接到浏览器下载完整报告)

 

https://www.cncf.io/reports/cncf-technology-landscape-radar/

 

根据报告结果,Apache Airflow、CubeFS、Kubeflow 和 Fluid 在批处理、AI 和 ML 领域得到了广泛的认可,并已被大量部署在最终用户的生产环境中。特别值得一提的是,已开源 10 年的 Airflow,它已连续 3 年获得此项荣誉。与此形成对比的是,作为这四个项目中最年轻的成员,Fluid 的突出表现不仅获得了社区用户的广泛认可,也代表了对 Fluid 开源社区维护者和贡献者的极大赞赏。

 

image.png

 

而在关键的洞见中,Fluid 两次被提到,分别是:

 

  • 对于批处理/AI /ML 计算技术,Apache Airflow、CubeFS、Kubeflow 和 Fluid 被置于技术雷达的“采用”位置,表明许多用户已选择它在生产环境中使用。
  • 根据开发人员反馈,Fluid 在成熟度上排名很高,成为开发者们表示最有可能向他人推荐的技术之一。

 

image.png

 

欢迎加入 Fluid 社区

 

Fluid 社区目前已经有超过 500 位 Contributors 以及 40 余位已在生产环境落地应用的 adopters,非常欢迎更多的朋友加入到 Fluid 社区:

 

项目地址:https://github.com/fluid-cloudnative/fluid

Slack: #fluid channel (CNCF workspace)

 

钉钉交流群:

image.png

 

微信交流群:

image.png

 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
4月前
|
存储 人工智能 Kubernetes
精彩瞬间:阿里云 KubeCon China 2025 之行回顾!
内附 KubeCon China 2025 阿里云相关演讲视频回放及 KubeCon China 2025 分论坛 | 阿里云 AI 基础设施技术沙龙演讲 PDF。
|
5月前
|
存储 缓存 Kubernetes
KubeCon China 2025 速递:成本 vs 性能,如何为 K8s 工作流选型最佳存储方案?
本文基于KubeCon China 2025的精彩议题分享,探讨在成本约束下为K8s工作流选择最佳存储方案。
|
6月前
|
人工智能 Kubernetes Cloud Native
我们香港见!阿里云亮相 KubeCon China 2025
阿里云亮相KubeCon + CloudNativeCon China 2025,带来多个技术议题分享,覆盖容涉及 AI 模型分发、Argo 工作流、Fluid 数据管理、Kubernetes 运维等多个热门话题,欢迎大家前来与我们零距离交流,共同探讨云原生技术!
|
5月前
|
人工智能 自然语言处理 IDE
【HarmonyOS 5】鸿蒙CodeGenie AI辅助编程工具详解
1、CodeGenie是什么? CodeGenie (代码精灵)作为鸿蒙DevEco IDE自带的AI辅助编码工具。
287 0
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
6月前
|
弹性计算 Kubernetes API
Kubernetes 驱动的 IaC,Crossplane 快速入门
Crossplane 是一个开源的 Kubernetes 扩展工具,允许用户通过声明式配置直接在 Kubernetes 中管理云资源。对于阿里云开发者,借助 Crossplane 和官方提供的 provider-upjet-alibabacloud,可以像管理 Pod 一样轻松操作 ECS 实例、VPC 和 OSS Bucket 等资源。本文介绍了 Crossplane 的核心概念,并通过快速入门指南演示了如何安装 Crossplane、配置阿里云认证并创建第一个 VPC 资源。
756 37
|
3月前
|
存储 监控 安全
告别版本混乱!同步盘让团队协作不再成为噩梦
同步盘是一种支持多成员、跨设备实时文件同步的企业云存储产品。用户只需在电脑、手机等设备上安装同步盘客户端,所有指定资料便会自动上传至云端,且随时随地同步到任意终端,实现企业高效协同办公,减少了数据的传递和管理时间。
|
6月前
|
关系型数据库 MySQL 数据库
【赵渝强老师】数据库不适合Docker容器化部署的原因
本文介绍了在Docker中部署MySQL数据库并实现数据持久化的方法,同时分析了数据库不适合容器化的原因。通过具体步骤演示如何拉取镜像、创建持久化目录及启动容器,确保数据安全存储。然而,由于数据安全性、硬件资源争用、网络带宽限制及额外隔离层等问题,数据库服务并不完全适合Docker容器化部署。文中还提到数据库一旦部署通常无需频繁升级,与Docker易于重构和重新部署的特点不符。
393 18
【赵渝强老师】数据库不适合Docker容器化部署的原因
|
8月前
|
存储 人工智能 缓存
AI变革药物研发:深势科技的云原生实践之路
近日,阿里云助力深势科技推出创新的玻尔Bohrium®科研云平台和Hermite®药物计算设计平台,并持续完善。
AI变革药物研发:深势科技的云原生实践之路
|
8月前
|
存储 消息中间件 Kafka
AutoMQ x OSS 的 Iceberg 数据入湖的最佳实践
在数据湖技术生态中,Apache Iceberg凭借其开放性设计已确立事实标准地位。该技术不仅获得全球企业广泛采用,还构建了包含Apache Spark、Amazon Athena、Presto等主流计算引擎的完整生态系统。
下一篇
oss云网关配置