加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛

简介: 本次方案的主题是加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统,从产业洞察、创新实践、发展建议三个方面,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。1. 产业洞察2. 创新实践3. 发展建议

加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛


内容介绍

1. 产业洞察

2. 创新实践

3. 发展建议

 

01. 产业洞察

image.png

AI 是现在最大的一个产业的变革,对于整个产业的影响会远远超过之前的一些技术,甚至就像计算机诞生一样,对于整个人类的发展产生了很大的一个影响。 AI 不仅仅在计算机领域,甚至对于经济的各个方面都会产生很大的影响,最根本的是改变了现在很多行业创新和发展的模式。计算力就是生产力,人工智能是推动生产力发展非常重要的一点,现在国家提出要推动新质生产力, AI 就是最重要的一个新质生产力。

image.png

在各个方面,如今有很多 AI 的应用,有一些可能很新奇好玩,但是从科研角度来讲,它改变了我们科研的范式,进行科学研究的传统方法,有了 AI 的大数据加持之后,可能会产生一些之前很难产生的突破。在各种生活生产的场景里面,“人”是非常重要的一个因素,人的培养和培训在整个生产力发展里面是最慢的,围绕于此产生了很多经济学上的一些研究。服务业这一类依赖于人的行业很难实现一个非常大规模化的扩张,不像工业生产的扩张会很快,就像农业生产受限于土地,服务业就受限于人。之前是劳动者红利,后来中国进入了工程师红利,但是培养一个合格的工程师,需要花费 20 多年的时间才能把一个人培养成一个非常合格的在行业领域顶尖的人才,但是 AI 的出现可能会改变很多,培养一个 AI 的劳动者,现在可能前期的训练要投入大量资本,但复制一个可能就需要一秒钟或者一分钟。

image.png

人工智能的原生化会推动各个行业的发展,同时也给整个 IT 产业提出了非常高的一个要求。浪潮信息这些年一直在致力于 AI 算力基础设施的推动,是全球最大的 AI 服务器供货商。我们在推动算力基础设施发展的过程中发现 AI 现在在很多地方的发展这几年是比较快的,快到我们的计算机底层的一些支撑是在被算法应用拉扯着往前跑,以前可能用一千块卡来训练,但现在很多的集群要到一万块卡,甚至下一步还可能出现几万块甚至上十万块卡,因为算力不够逼着大家去规模化扩展。但是规模化的扩展在某种意义上是效率最不高的一种方式,横着不停的往里堆资源,堆到一定的时候,就会出现很大的问题,所以又逼着网络发展。

以前 100G 的网络不好进行推广,因为客户不需要这么多,在大规模训练出来以后,很多用户对于网络的需求变高了, 100G 的网络反而不够了。相互之间的交互变得更加的复杂,数据存储也是。原来的存储只是将规模做得越来越大,但现在对存储的速度的要求也提上来了。在 AI 场景下,硬件故障造成数据 AI 的训练停下来,就需要把数据保存并读回来,这时候存储就产生了一个非常大的瞬时的 IO 的需求。我们依赖着堆资源的模式满足 AI 的需要,短时间可行,但长久还是会出现大问题。

在这个过程中,操作系统面临着非常大的挑战。

第一是多元算力,算力现在变得越来越复杂。以前是 CPU ,现在不仅包括国外的 GPU ,还有国内的 GPU ,还可能会有其他很多专用的芯片,操作系统就是要把这些算力组织起来。

第二是 AI 本身的编程环境是非常复杂的,很多用户在选择环境的时候会面临不知道选择哪个的问题,这个生态很离散。在历史系统软件的发展过程里,很多成熟的东西就像编译器慢慢的就会进入操作系统,未来面向 AI 的这种编程开发环境同样也应该是操作系统的一部分。

第三是效率性能的优化和可靠性、稳定性的要求,这在操作系统一层是非常重要的,因为操作系统是直接管理硬件的,在出现故障的时候,能快速定位、恢复,这是对操作系统最基本的一个要求。性能调优方面有很多的例子,因为用户选错了底下的软件,造成了性能下降了百分之四五十。

最后一个 AI 的原生安全也是需要系统软件来参与的。

image.png

开源开放是过去这些年产业发展的一个非常重要点, AI 的发展同样也需要开放的环节。现在很多的技术都是通过开放的这种模式,不仅软件在开源,硬件也在慢慢的走向开放,开放加速了 AI 技术的创新,也促进了 AI 的原生化发展。底层很多开源的 AI 框架、 AI 算法以及基于 LLaMa 的大模型的发展,实际上都证明开源是我们发展技术非常重要的一点。

 

02. 创新实践

image.png

浪潮信息围绕着面向 AI ,在系统软件整个的体系里面做了很大的一个创新,包括从硬件到系统软件,系统软件是其中非常重要的一个环节。我们提出以应用为导向,面向应用各种各样的场景,做了一个包括服务器整机、操作系统、为用户提供的最基础的环境在内的整体的系统的联合创新。

image.png

围绕着大规模的 AI 训练,在硬件方面引入了很多新的技术,首先对于用户来讲,万卡规模集群的快速搭建包括了算力以及各种各样的芯片之间的内部互联和外部互联,以及 400G 网络的引入和存储的引入。同时也围绕整个的系统软件,在操作系统也做了很多的工作,包括多元算力的支持、容错的加强、安全的加强,也为用户提供对于整个大规模数据中心的管理以及大模型和基本算组库。我们现在做了一个相对通用的算组库,希望能够把不同家芯片里面的算子再做一次抽象。这些很多的技术陆陆续续的都会和我们的操作系统结合起来,有些也会反馈到社区。

image.png

浪潮信息积极参与了社区的工作,在社区里面围绕着社区的技术创新、标准、规范以及生态合作和应用推广做了很多的工作,同时也在推动国内计算的开放阶段的体系,希望龙蜥社区或者开源软件也是其中一部分,所以我们也和上游的各种芯片厂商以及下游的应用厂商积极的展开合作,通过构建开放共赢的生态加速 AI 应用的落地。

 

03. 发展建议

image.png

关于龙蜥社区未来的发展:

第一谁先去拥抱 AI ,谁就能够在未来的竞争里立于不败之地,龙蜥社区现在已经积极在拥抱 AI 了,真正的把 AI 原生作为龙蜥社区的一个优先发展的点。我们各个参与单位也能够把在 AI 方面的一些创新拿到龙蜥社区,把龙蜥社区打造成一个真正对 AI 友好的做训练以及应用开发首选的操作系统。

第二是坚持应用导向,社区里面现在已经有了很多的用户,也希望能有更多的用户加入进来。浪潮信息做服务器的业务,基本上国内大一点的数据中心都是浪潮信息的用户,希望借助这方面的优势,能够让更多的用户参与到龙蜥社区。我们从用户的需求出发,在卖服务器的过程中,和用户一起做创新以及定制化,操作系统也一样要从应用出发,和用户一起在硬件和软件上协同创新推动整个社区的发展。

最后社区要强化开放中立,我们作为一个整机厂商,在过去确确实实体会到了生态建设的重要性,因为整机里面包含了各家的板卡以及要接各家的操作系统和应用,只有保持一个完全的开放才能达到技术的发展,如果把它封闭起来,其实这并不是一个很好的路径。希望社区是一个更开放的环境,能够团结更多的技术力量,共同促进社区的发展,从而促进整个中国操作系统产业的发展。

相关文章
|
1月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
3月前
|
人工智能 安全 数据中心
|
3月前
|
存储 人工智能 编解码
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
在AI与高性能计算需求激增的今天,传统CPU已难满足“暴力计算”需求。阿里云GPU云服务器依托NVIDIA顶级显卡算力,结合专为GPU优化的神行工具包(DeepGPU),为深度学习、科学计算、图形渲染等领域提供高效、弹性的算力支持。本文全面解析其产品优势、工具链及六大真实应用场景,助你掌握AI时代的算力利器。
阿里云GPU云服务器深度评测:算力怪兽如何重塑AI与图形处理的未来?
|
2月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
311 0
|
3月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
691 1
|
3月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
3月前
|
存储 人工智能 运维
「镁客·请讲」智易科技李杰:技术工具化,打造AI时代的“操作系统”
在李杰看来,从智能化时代的终局进行倒推,AI将会是一个重要的基础设施,就如同现在的互联网。
647 0
|
25天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
353 29
|
1月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
406 23

热门文章

最新文章