Fluid 进入 CNCF Sandbox,加速大数据和 AI 应用拥抱云原生

简介: 2021 年 4 月 27 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 Fluid 成为 CNCF 官方沙箱项目。Fluid 是一个由南京大学、阿里云以及 Alluxio 开源社区联合发起并开源的云原生数据编排和加速系统。

来源 | 阿里巴巴云原生公众号

2021 年 4 月 27 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 Fluid 成为 CNCF 官方沙箱项目。Fluid 是一个由南京大学、阿里云以及 Alluxio 开源社区联合发起并开源的云原生数据编排和加速系统。

Fluid 项目地址:
https://github.com/fluid-cloudnative/fluid

项目介绍

云原生环境下,计算存储分离架构在提升系统弹性和灵活性的同时,给大数据 / AI 等数据密集型应用带来了计算性能和管理效率方面的挑战。现有云原生编排框架运行此类应用面临数据访问延时高、多数据源联合分析难、应用使用数据过程复杂等痛点。Fluid 正是为解决这些问题而生的。

1222.jpg
Fluid 系统架构图

Fluid 运行在 Kubernetes 上,是一个可扩展的分布式数据编排和加速系统,其目标为构建云原生环境下数据密集型应用的高效支撑平台。该项目开源于 2020 年 9 月,短短半年多时间内发展迅速,吸引了众多领域专家和工程师的关注与贡献,并在包括微博、中国电信等多家大型知名IT和互联网企业中使用。

核心功能

Fluid 在云原生应用与数据的协同编排、调度优化、数据缓存等几方面提出一系列技术创新,其核心功能包括:

  • 提供存储无感知的数据对象-数据集(Dataset):通过自定义资源对象 (Custom Resource Definition)实现对不同存储系统的统一抽象定义与管理,支持可观测性和弹性伸缩。
  • 利用分布式缓存技术加速数据集读写:通过扩展 CacheRuntime 对象,自定义并管理分布式数据缓存引擎。目前已原生支持缓存引擎 AlluxioJindoFS
  • 基于容器调度的智能数据编排:基于 Kubernetes 容器调度和扩缩容能力,实现数据缓存的智能化编排。
  • 数据集与应用协同调度:扩展 Kubernetes 调度器感知数据集缓存信息,就近调度应用,发挥本地读写缓存的性能优势。
  • 标准访问接口:使用 Kubernetes 标准存储接口 Persistent Volume Claim  访问数据集,实现无缝兼容云原生应用。
  • 面向场景的性能调优:针对深度学习、批量数据处理等任务,提供数据集预热、元数据管理优化、小文件 IO 优化、自动弹性伸缩等手段,普遍提升任务运行效率。

展望未来

Fluid 开源项目致力于通过结合学术界的原创研究和工业界的落地实践能力,加速云原生基础设施拥抱数据密集型应用,与开源社区一同构建 Kubernetes 平台应用使用和管理数据的统一界面。Fluid 开源社区目前有 5 位核心维护者 (Maintainer),分别来自南京大学,阿里巴巴和 Alluxio,并由来自南京大学 PASALab 的顾荣副研究员担任开源社区主席。此外,来自中国电信、微博、Boss 直聘、第四范式、云知声等企业的工程师都贡献了大量的开发工作。

作为对原生 Kubernetes 生态完全兼容的数据密集型应用运行支撑平台,Fluid 将向更灵活、智能、可扩展的架构方向发展,不断提升开发者和用户使用体验。未来,Fluid 将继续与社区并肩、与生态同行,致力于推进云原生技术在大数据 / AI 系统领域的生态建设与普及,与全球开发者一起拓展云原生的边界。

欢迎大家持续关注 Fluid 开源项目并积极参与该项目的共建,有问题可以钉钉扫码进群交流!

2.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1348 55
|
5月前
|
人工智能 Cloud Native 关系型数据库
云栖重磅|瑶池数据库:从云原生数据底座向“AI就绪”的多模态数据底座演进
瑶池数据库:从云原生数据底座向“AI就绪”的多模态数据底座演进
|
5月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
1052 1
|
5月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
351 7
|
5月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
440 0
|
6月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
484 2
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
246 0
|
存储 人工智能 缓存
Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图
得益于容器化带来的高效部署、敏捷迭代,以及云计算在资源成本和弹性扩展方面的天然优势,以 Kubernetes 为代表的云原生编排框架吸引着越来越多的 AI 与大数据应用在其上部署和运行。然而,云原生计算基金会(CNCF)全景图中一直缺失一款原生组件,以帮助这些数据密集型应用在云原生场景下高效、安全、便捷地访问数据。
5022 0
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
653 30