加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛
内容介绍
1. 产业洞察
2. 创新实践
3. 发展建议
01. 产业洞察
AI 是现在最大的一个产业的变革,对于整个产业的影响会远远超过之前的一些技术,甚至就像计算机诞生一样,对于整个人类的发展产生了很大的一个影响。 AI 不仅仅在计算机领域,甚至对于经济的各个方面都会产生很大的影响,最根本的是改变了现在很多行业创新和发展的模式。计算力就是生产力,人工智能是推动生产力发展非常重要的一点,现在国家提出要推动新质生产力, AI 就是最重要的一个新质生产力。
在各个方面,如今有很多 AI 的应用,有一些可能很新奇好玩,但是从科研角度来讲,它改变了我们科研的范式,进行科学研究的传统方法,有了 AI 的大数据加持之后,可能会产生一些之前很难产生的突破。在各种生活生产的场景里面,“人”是非常重要的一个因素,人的培养和培训在整个生产力发展里面是最慢的,围绕于此产生了很多经济学上的一些研究。服务业这一类依赖于人的行业很难实现一个非常大规模化的扩张,不像工业生产的扩张会很快,就像农业生产受限于土地,服务业就受限于人。之前是劳动者红利,后来中国进入了工程师红利,但是培养一个合格的工程师,需要花费 20 多年的时间才能把一个人培养成一个非常合格的在行业领域顶尖的人才,但是 AI 的出现可能会改变很多,培养一个 AI 的劳动者,现在可能前期的训练要投入大量资本,但复制一个可能就需要一秒钟或者一分钟。
人工智能的原生化会推动各个行业的发展,同时也给整个 IT 产业提出了非常高的一个要求。浪潮信息这些年一直在致力于 AI 算力基础设施的推动,是全球最大的 AI 服务器供货商。我们在推动算力基础设施发展的过程中发现 AI 现在在很多地方的发展这几年是比较快的,快到我们的计算机底层的一些支撑是在被算法应用拉扯着往前跑,以前可能用一千块卡来训练,但现在很多的集群要到一万块卡,甚至下一步还可能出现几万块甚至上十万块卡,因为算力不够逼着大家去规模化扩展。但是规模化的扩展在某种意义上是效率最不高的一种方式,横着不停的往里堆资源,堆到一定的时候,就会出现很大的问题,所以又逼着网络发展。
以前 100G 的网络不好进行推广,因为客户不需要这么多,在大规模训练出来以后,很多用户对于网络的需求变高了, 100G 的网络反而不够了。相互之间的交互变得更加的复杂,数据存储也是。原来的存储只是将规模做得越来越大,但现在对存储的速度的要求也提上来了。在 AI 场景下,硬件故障造成数据 AI 的训练停下来,就需要把数据保存并读回来,这时候存储就产生了一个非常大的瞬时的 IO 的需求。我们依赖着堆资源的模式满足 AI 的需要,短时间可行,但长久还是会出现大问题。
在这个过程中,操作系统面临着非常大的挑战。
第一是多元算力,算力现在变得越来越复杂。以前是 CPU ,现在不仅包括国外的 GPU ,还有国内的 GPU ,还可能会有其他很多专用的芯片,操作系统就是要把这些算力组织起来。
第二是 AI 本身的编程环境是非常复杂的,很多用户在选择环境的时候会面临不知道选择哪个的问题,这个生态很离散。在历史系统软件的发展过程里,很多成熟的东西就像编译器慢慢的就会进入操作系统,未来面向 AI 的这种编程开发环境同样也应该是操作系统的一部分。
第三是效率性能的优化和可靠性、稳定性的要求,这在操作系统一层是非常重要的,因为操作系统是直接管理硬件的,在出现故障的时候,能快速定位、恢复,这是对操作系统最基本的一个要求。性能调优方面有很多的例子,因为用户选错了底下的软件,造成了性能下降了百分之四五十。
最后一个 AI 的原生安全也是需要系统软件来参与的。
开源开放是过去这些年产业发展的一个非常重要点, AI 的发展同样也需要开放的环节。现在很多的技术都是通过开放的这种模式,不仅软件在开源,硬件也在慢慢的走向开放,开放加速了 AI 技术的创新,也促进了 AI 的原生化发展。底层很多开源的 AI 框架、 AI 算法以及基于 LLaMa 的大模型的发展,实际上都证明开源是我们发展技术非常重要的一点。
02. 创新实践
浪潮信息围绕着面向 AI ,在系统软件整个的体系里面做了很大的一个创新,包括从硬件到系统软件,系统软件是其中非常重要的一个环节。我们提出以应用为导向,面向应用各种各样的场景,做了一个包括服务器整机、操作系统、为用户提供的最基础的环境在内的整体的系统的联合创新。
围绕着大规模的 AI 训练,在硬件方面引入了很多新的技术,首先对于用户来讲,万卡规模集群的快速搭建包括了算力以及各种各样的芯片之间的内部互联和外部互联,以及 400G 网络的引入和存储的引入。同时也围绕整个的系统软件,在操作系统也做了很多的工作,包括多元算力的支持、容错的加强、安全的加强,也为用户提供对于整个大规模数据中心的管理以及大模型和基本算组库。我们现在做了一个相对通用的算组库,希望能够把不同家芯片里面的算子再做一次抽象。这些很多的技术陆陆续续的都会和我们的操作系统结合起来,有些也会反馈到社区。
浪潮信息积极参与了社区的工作,在社区里面围绕着社区的技术创新、标准、规范以及生态合作和应用推广做了很多的工作,同时也在推动国内计算的开放阶段的体系,希望龙蜥社区或者开源软件也是其中一部分,所以我们也和上游的各种芯片厂商以及下游的应用厂商积极的展开合作,通过构建开放共赢的生态加速 AI 应用的落地。
03. 发展建议
关于龙蜥社区未来的发展:
第一谁先去拥抱 AI ,谁就能够在未来的竞争里立于不败之地,龙蜥社区现在已经积极在拥抱 AI 了,真正的把 AI 原生作为龙蜥社区的一个优先发展的点。我们各个参与单位也能够把在 AI 方面的一些创新拿到龙蜥社区,把龙蜥社区打造成一个真正对 AI 友好的做训练以及应用开发首选的操作系统。
第二是坚持应用导向,社区里面现在已经有了很多的用户,也希望能有更多的用户加入进来。浪潮信息做服务器的业务,基本上国内大一点的数据中心都是浪潮信息的用户,希望借助这方面的优势,能够让更多的用户参与到龙蜥社区。我们从用户的需求出发,在卖服务器的过程中,和用户一起做创新以及定制化,操作系统也一样要从应用出发,和用户一起在硬件和软件上协同创新推动整个社区的发展。
最后社区要强化开放中立,我们作为一个整机厂商,在过去确确实实体会到了生态建设的重要性,因为整机里面包含了各家的板卡以及要接各家的操作系统和应用,只有保持一个完全的开放才能达到技术的发展,如果把它封闭起来,其实这并不是一个很好的路径。希望社区是一个更开放的环境,能够团结更多的技术力量,共同促进社区的发展,从而促进整个中国操作系统产业的发展。