如何加速云原生数据应用?这个开源项目备受关注

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
性能测试 PTS,5000VUM额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 作为对原生 Kubernetes 生态完全兼容的数据密集型应用运行支撑平台,Fluid 将向更灵活、智能、可扩展的架构方向发展,不断提升开发者和用户使用体验。未来,Fluid 将继续与社区并肩、与生态同行,致力于推进云原生技术在 AI 等领域的生态建设与普及,与全球开发者一起拓展云原生的边界。

作者 | Fluid开源社区


2021 年 9 月 17 日,在由中国信息通信研究院、中国通信标准化协会联合主办的“2021 OSCAR 开源产业大会”上,由阿里云云原生团队联合发起(其他联合单位包括:南京大学、Alluxio 社区)的开源项目 Fluid 荣获“ OSCAR 尖峰开源项目和开源社区”奖项;同时,作为 Fluid 项目的联合发起人和社区运营主席,来自南京大学 PASALab 的顾荣副研究员被评选为“开源人物”。


image.gif1632304335816-6e821871-9342-4402-a4d9-b80f48204ea1.pngE8DD04BE-599E-47BF-84EB-39D0C1EA082D-18473-00000841E75E6611.jpg.JPG


Fluid 于 2020 年 9 月正式对外开源。很多熟悉 Fluid 的朋友都知道,该项目的本质是一个云原生数据编排和加速系统,于 2021 年 5 月正式成为 CNCF Sandbox 项目,帮助业界完善在云原生 AI 领域的一块重要版图。


发展不过短短一年时间, Fluid  便一次获得两项开源界的重要认可,证明着其所专注的云原生、AI 领域也正在迎来广泛关注。这其中的意义和价值如何?我们尝试管中察豹,从 Fluid 的发展背景和实区实践聊表观点。



云原生 + AI,企业数字化创新的循环引擎


今年是十四五的开局之年。2021 年 3 月,新华社全文公布了《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称“纲要”)。作为未来五年产业发展、科技创新等的重要行动纲领,纲要中有三个关键词格外引人关注:“人工智能”、“云计算”,和首次被列进规划的“开源”。


作为构筑数字经济的基础设施,云计算正像水电煤气一样,渗透至各行各业,用润物细无声来形容也毫不为过。近年来,以容器、微服务、DevOps 为代表的云原生技术,使云端强大的服务能力得到充分释放,加速了基础设施的敏捷化,进一步实现企业生产效能的提升,因为被喻为“企业数字化转型的最短路径”。


作为在信息基础设施上承载的主要资源,“数据”则可以看成是新型基础设施的“血液”。AI 技术与云计算的深度融合趋势, 也进一步对算力和应用架构提出了新要求。


回溯 AI 领域主要技术框架的发展,如 Spark,Hive,MapReduce ,为了减少数据传输,其设计更多地考虑数据本地化架构。但随着技术环境和应用需求的不断更迭,为兼顾资源扩展的灵活性与使用成本,计算和存储分离的架构在云原生环境中逐渐成为主流。这种计算存储分离架构在提升系统弹性和灵活性的同时,也给 AI 等数据密集型应用带来了计算性能和管理效率方面的挑战。


为了解决现有云原生编排框架运行此类应用面临数据访问延时高、多数据源联合分析难、应用使用数据过程复杂等痛点,阿里云云原生团队、南京大学、Alluxio 社区联合发起并开源的云原生数据编排和加速系统 Fluid ,该项目于 2021 年 5 月正式被 CNCF 接纳为 Sandbox 项目,加速数据密集型应用全面拥抱云原生。


1632302922573-9453e41d-4f59-4220-867d-d253db21d103.pngimage.gif


核心功能:


Fluid 在云原生应用与数据的协同编排、调度优化、数据缓存等几方面提出一系列技术创新,其核心功能包括:


  • 提供存储无感知的数据对象-数据集(Dataset):通过自定义资源对象 (Custom Resource Definition)实现对不同存储系统的统一抽象定义与管理,支持可观测性和弹性伸缩。
  • 利用分布式缓存技术加速数据集读写:通过扩展 CacheRuntime 对象,自定义并管理分布式数据缓存引擎。目前已原生支持缓存引擎 Alluxio 和 JindoFS。
  • 基于容器调度的智能数据编排:基于 Kubernetes 容器调度和扩缩容能力,实现数据缓存的智能化编排。
  • 数据集与应用协同调度:扩展 Kubernetes 调度器感知数据集缓存信息,就近调度应用,发挥本地读写缓存的性能优势。
  • 标准访问接口:使用 Kubernetes 标准存储接口 Persistent Volume Claim  访问数据集,实现无缝兼容云原生应用。
  • 面向场景的性能调优:针对深度学习、批量数据处理等任务,提供数据集预热、元数据管理优化、小文件 IO 优化、自动弹性伸缩等手段,普遍提升任务运行效率。




开源成为生产环境下 AI 应用云原生化重要选择


在本次开源产业大会上,信通院云计算与大数据研究所所长何宝宏、中国通信标准化协会常务副秘书长兼副理事长代晓慧等嘉宾发表重点观点,表示开源是软件业新的生产方式,也是一种新的交付方式,这种方式经过二十多年的发展,已经发展成熟。它既可以充分调动个人主观能动性,通过社区协同机制进行思想碰撞,激发技术创新,引领新一代通用技术发展,更构建了新的合作模式,通过代码公开、规则公开、过程公开,营造透明、开放的社区环境,并通过代码检测,自动形成安全前置,有效打消了企业及个人参加的顾虑,建立了信任机制,已成为企业构建信息系统的重要选择。


这些观点在 Fluid 开源社区中也得到了充分的印证。从正式被创立之日起,共建 Fluid 的各方就致力于通过结合学术界的原创研究和工业界的落地实践能力,加速云原生基础设施拥抱数据密集型应用,并且秉持开源精神与社区一同推动 Kubernetes 平台应用使用和管理数据的统一界面的构建和使用。


正式开源来的短短在一年时间里,Fluid 借助社区的力量迅速发展,得到来自中国电信、微博、Boss 直聘、第四范式、云知声等众多企业的专家和工程师的关注,并贡献了大量的开发工作,包括微博、中国电信、毫末智行等多家大型知名 IT 和互联网企业都成功将Fluid 应用于生产环境下数据密集型应用的开发与部署,大大提升了资源利用效率和应用性能。

1632304494859-67dc69ac-2403-4716-b541-af66551def88.png


Fluid 的开源实践,不仅得到了来自各界的认可,也为企业在云上以原生的方式创新数据密集型应用开发和部署,加速数据的流通、汇集、处理和价值挖掘,提升应用生产效率提供了可以信赖的经验和方法。


作为对原生 Kubernetes 生态完全兼容的数据密集型应用运行支撑平台,Fluid 将向更灵活、智能、可扩展的架构方向发展,不断提升开发者和用户使用体验。未来,Fluid 将继续与社区并肩、与生态同行,致力于推进云原生技术在 AI 等领域的生态建设与普及,与全球开发者一起拓展云原生的边界。


戳下方链接,查看 Fluid 开源项目 github 主页!

https://github.com/fluid-cloudnative/fluid

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
Mgo
|
存储 SQL Kubernetes
可观测性革命 - 揭秘OpenObserve开源高性能云原生平台
本文分析OpenObserve 以及其在可观测性方面如何帮助您构建更好的软件并节省观测成本
Mgo
1372 0
|
2月前
|
运维 Cloud Native 持续交付
云原生技术:探索现代应用开发的新纪元
本文深入探讨了云原生技术的崛起,以及它如何彻底改变现代应用开发和部署的方式。我们将从云原生的基本概念入手,逐步解析其核心技术如容器化、微服务架构及自动化运维,并展示这些技术如何帮助开发者和企业实现更高效、更灵活的应用管理。通过实际案例分析,我们将揭示云原生技术在提升开发效率、优化资源利用和增强系统可扩展性方面的巨大潜力。
|
6月前
|
供应链 Cloud Native 安全
【阿里云云原生专栏】云原生与区块链的交响曲:阿里云 BaaS 平台的应用展望
【5月更文挑战第28天】阿里云BaaS平台融合云原生与区块链技术,提供一站式便捷、高性能且安全的区块链服务。在供应链和金融等领域应用广泛,如智能合约示例所示,助力数字化转型。未来,两者融合将深化,创造更多应用模式。企业和开发者应把握机遇,借助阿里云BaaS平台开创未来。
284 1
|
边缘计算 Cloud Native 持续交付
探索云原生世界:当前最受欢迎的技术和趋势
探索云原生世界:当前最受欢迎的技术和趋势
91 0
|
存储 Cloud Native 关系型数据库
《云计算加速开源创新》——打造世界级云原生数据库开源社区(上)
《云计算加速开源创新》——打造世界级云原生数据库开源社区(上)
|
运维 Cloud Native 前端开发
《云计算加速开源创新》——打造世界级云原生数据库开源社区(下)
《云计算加速开源创新》——打造世界级云原生数据库开源社区(下)
|
Kubernetes Cloud Native Dubbo
《云计算加速开源创新》——基于开源体系的云原生微服务治理实践与探索(上)
《云计算加速开源创新》——基于开源体系的云原生微服务治理实践与探索(上)
|
运维 Kubernetes Dubbo
《云计算加速开源创新》——基于开源体系的云原生微服务治理实践与探索(下)
《云计算加速开源创新》——基于开源体系的云原生微服务治理实践与探索(下)
|
运维 Cloud Native 数据挖掘
《云计算加速开源创新》——云时代下的DataOps开源技术演进
《云计算加速开源创新》——云时代下的DataOps开源技术演进
|
存储 缓存 人工智能
《云计算加速开源创新》——云原生驱动数据抽象与缓存加速开源技术发展
《云计算加速开源创新》——云原生驱动数据抽象与缓存加速开源技术发展